Google for your desktop search – DocFetcher

docfetcher-logoDocFetcher is an Open Source desktop search application: It allows you to quickly access documents on your computer by typing keywords. – You can think of it as Google for your local document repository. The application is currently available for Windows and GTK-based Linux.

DocFetcher creates so-called index files on which the searches are performed. You can either create permanent indexes for large document repositories that change infrequently, or temporary ones for quick full-text searches in small folders.

Temporary indexes can be created by rightclicking on a folder and selecting the menu item “Search With DocFetcher”, and they are automatically disposed of after program termination. (You can of course tell DocFetcher to keep them.)

The indexing process might take a few minutes for larger repositories, and is usually a matter of seconds for small folders (200 documents = about 1 min.).

After index creation, you can type keywords into DocFetcher’s search box, e.g. “fourier analysis” and hit Enter. Then DocFetcher will list all documents inside the selected folders that contain these words – most of the time in less than a second.

But There’s More To It…

Automatic index updates: Indexes are updated automatically when files in the corresponding folders are modified, even when DocFetcher isn’t running. This is done via a daemon that waits in the background and watches all indexed folders. The daemon has very low CPU usage, because, rather than indexing files itself, it only remembers which indexes need to be updated the next time DocFetcher is launched.

A portable version: Runs on both Windows and Linux. You can put all your documents in it and then freely move the entire folder around (i.e., DocFetcher + indexes + documents). Possible destinations include other computers, encrypted volumes (TrueCrypt), CD-ROMs and USB drives. The portable version can also be used for sharing an indexed document repository across a local area network, or across the OS’ses of a Windows/Linux dual boot system.

Detection of HTML pairs, e.g. “foo.htm” and a folder named “foo_files”. Each pair will be treated as a single document. This feature may seem rather useless on first sight, but it turned out that this dramatically increases the quality of the search results when you’re searching for HTML files, since all the “clutter” inside the HTML folders disappears from the results.

Search in source code files: The file extensions by which DocFetcher recognizes plain text and HTML files can be fully customized. Therefore you can use DocFetcher to search in any kind of source code.

Other Notable Features:
Regular expression based exclusion of files from indexing.
Various file operations on the document repository can be performed through DocFetcher’s interface (e.g. creating folders, inserting new files).
Preview panel with search-term highlighting and a simple built-in web browser.
Search results can be sorted and filtered by different criteria (filetype, filesize, path, etc.).
Global hotkey to bring DocFetcher to the front.
Supported Document Formats
HTML and plain text (both customizable)
Portable Document Format (pdf)
Microsoft Office (doc, xls, ppt)
Microsoft Office 2007 (docx, xlsx, pptx)
OpenOffice.org Writer, Calc, Draw and Impress (odt, ods, odg, odp)
Rich Text Format (rtf)
AbiWord (abw, abw.gz, zabw)
Microsoft Compiled HTML Help (chm)
Microsoft Visio (vsd)
Scalable Vector Graphics (svg)

What Some People Think About This Program…

Comparison To Other Desktop Search Applications
At least two things set DocFetcher apart from other desktop search applications, such as Google Desktop. First, it defaults to indexing only what you need, not to indexing the entire harddrive, and second, it indexes documents only – pictures, music, videos, etc. are omitted. Here’s why we believe this is just fine the way it is:

The bigger the search scope, the more “noise” there will be in the search results. Accordingly, you will find that DocFetcher generally gives better search results than similar programs.
Less files to index = faster indexing and decreased CPU usage. (Don’t you just hate it when there’s always some program busily working in the background?)
The real power of Google and other web search engines comes from document indexing, because it gives a very good approximation of the content of a document. Indexing images or videos however isn’t all that useful, because the real content of an image or a video is not accessible via text extraction.
Why install yet another program to access images, music, videos, e-mails, etc., if your favorite picture browser, media player, e-mail client, and so on, has been optimized for many years to do just that? Why would you use a half-baken, generic search interface then? So, no images, no music, no videos… – what’s left? Documents. And that’s what DocFetcher is good for. (By the way, Launchy is recommended for quickly launching start menu entries.)

Other than that, if you don’t need eye candy, but want a powerful Open Source tool that just does what it’s supposed to do, without violating your privacy and without installing “extras”, then this program is for you!

DocFetcher ist ein Open-Source-Suchprogramm, welches Ihnen den schnellen Zugriff auf in Ihrem Computer gespeicherte Dokumente durch Eingabe von Suchbegriffen ermöglicht. – Eine Art Google für Ihren Rechner. Die Anwendung ist derzeit für Windows und für GTK-basierte Linux-Distributionen verfügbar.

Wie es funktioniert
DocFetcher erstellt sogenannte Indexdateien, die zur Suche benutzt werden. Sie können entweder permanente Indizes für umfangreiche Dokumentverzeichnisse erstellen, die sich selten ändern, oder temporäre für eine schnelle Volltextsuche in kleinen Ordnern.

Temporär-Indizes können durch Rechtsklick auf einen Ordner und Auswahl des Menüpunktes “Suche mit DocFetcher” erstellt werden, und sie werden nach Programmende automatisch entfernt. (Natürlich können Sie DocFetcher veranlassen, diese Indizes zu behalten)

Der Indizierungsprozeß kann für größere Verzeichnise einige Minuten dauern und benötigt normalerweise nur einige Sekunden für kleine Ordner (200 Dokumente = ungefähr 1 Minute).

Nach der Indexerstellung können Sie Suchworte in das Suchfeld von DocFetcher eingeben, z. B. “Fourieranalyse” und die Enter-Taste drücken. DocFetcher wird dann alle Dokumente innerhalb der gewählten Ordner anzeigen, die diese Worte enthalten – zumeist in weniger als 1 Sekunde.

xp_all
Aber da ist noch mehr …
Automatische Indexaktualisierung: Indizes werden automatisch aktualisiert, wenn Dateien in den entsprechenden Ordnern verändert werden, selbst wenn DocFetcher nicht läuft. Dies geschieht über einen Hintergrundprozeß, der alle indizierten Ordner beobachtet. Dieser Hintergrundprozeß hat sehr wenig CPU-Bedarf, weil er, anstatt die Dateien selbst zu indizieren, sich nur merkt, welche Indizes beim nächsten Start von DocFetcher aktualisiert werden müssen.

Eine portable Version: Läuft sowohl unter Windows als auch unter Linux. Sie können alle Ihre Dokumente dort hinein legen und dann den ganzen Ordner frei bewegen (also DocFetcher + Indizes + Dokumente). Mögliche Ziele sind andere Computer, verschlüsselte Laufwerke (TrueCrypt), CD-ROMs und USB-Sticks. Die portable Version kann auch genutzt werden, um ein indiziertes Dokumentverzeichnis in einem lokalen Netzwerk oder in einem Dual-Boot-System gemeinsam zu nutzen.

Erkennung von HTML-Paaren, z. B. “foo.htm” und ein Ordner namens “foo_files”. Jedes Paar wird als ein Dokument behandelt. Dieses Feature mag zunächst recht nutzlos erscheinen, aber es zeigte sich, dass dies die Qualität der Suchergebnisse wesentlich verbessert, wenn Sie nach HTML-Dateien suchen, da all die zusätzlichen Dateien in den HTML-Ordnern aus den Suchergebnissen verschwinden.

Suche in Quellcode-Dateien: Die Dateinamen-Erweiterungen, an denen DocFetcher einfache Text- und HTML-Dateien erkennt, sind vollständig anpassbar. Daher können Sie DocFetcher verwenden, um in jeder Art von Quellcode zu suchen.

xp_simple

Weitere Features
Auf regulären Asudrücken basierender Ausschluss von Dateien von der Indizierung.
Verschiedene Dateioperationen mit dem Dokumentverzeichnis können über DocFetchers Oberfläche durchgeführt werden (z. B. Erstellen von Ordnern, Einfügen neuer Dateien).
Vorschauanzeige mit Hervorhebung der Suchbegriffe und ein eingebauter, einfacher Web-Browser.
Suchergebnisse können nach verschiedenen Kriterien sortiert und gefiltert werden (Dateityp, Dateigröße, Pfad usw.).

Systemweite Schnellzugriffstaste, um DocFetcher in den Vordergrund zu bringen.
Unterstützte Dokument-Formate
HTML- und einfacher Text (beide anpassbar)
Portables Dokument-Format (pdf)
Microsoft Office (doc, xls, ppt)
Microsoft Office 2007 (docx, xlsx, pptx)
OpenOffice.org Writer, Calc, Draw und Impress (odt, ods, odg, odp)
Rich-Text-Format (rtf)
AbiWord (abw, abw.gz, zabw)
Microsoft Compiled HTML Help (chm)
Microsoft Visio (vsd)
Scalable Vector Graphics (svg)

Was manche Leute von diesem Programm halten…

Vergleich zu anderen Suchprogrammen

Mindestens zwei Dinge unterscheiden DocFetcher von anderen Suchprogrammen wie z. B. Google Desktop. Erstens beschränkt es sich darauf, nur das zu indizieren, was Sie benötigen, und nicht die ganze Festplatte, und zweitens indiziert es nur Dokumente – Bilder, Musik, Videos usw. werden übersprungen. Hier ist unsere Begründung dafür:

Je größer der Suchbereich ist, umso mehr “Rauschen” findet sich in den Suchergebnissen. Dementsprechend werden Sie finden, dass DocFetcher im Allgemeinen bessere Suchergebnisse liefert als ähnliche Programme.

Weniger Dateien zu indizieren = schnellere Indizierung und weniger CPU-Belastung. (Hassen Sie es nicht auch, wenn ständig ein Programm im Hintergrund sehr beschäftigt ist?)

Der wirkliche Nutzen von Google und anderen Websuchmaschinen liegt in der Dokumentindizierung, weil sie eine sehr gute Schätzung des Inhalts eines Dokuments gibt. Die Indizierung von Bildern oder Videos jedoch ist nicht besonders sinnvoll, weil der tatsächliche Inhalt eines Bildes oder eines Videos einer Textextrahierung nicht zugänglich ist.

Warum sollen Sie ein weiteres Programm installieren, um auf Bilder, Musik, Videos, E-Mails usw. zuzugreifen, wenn Ihr Lieblings-Bildbetrachter, -Medienabspielprogramm, -E-Mail-Programm usw. seit Jahren daraufhin optimiert wurde, genau das zu tun? Warum sollten Sie dafür eine halbfertige, generische Suchoberfläche verwenden? Daher – keine Bilder, keine Musik, keine Videos … – was bleibt? Dokumente. Und dafür ist DocFetcher bestens geeignet. (Bei dieser Gelegenheit, Launchy wird sehr empfohlen für das schnelle Starten von Startmenü-Einträgen.)

Daher: Wenn Sie keine Augenweide brauchen, aber ein mächtiges Open-Source-Programm möchten, das genau das tut, was Sie von ihm erwarten, ohne Ihre Privatsphäre zu verletzen und ohne “Extras” zu installieren, dann ist dieses Programm für Sie das Richtige!

Source: DocFetcher

Leave a Reply