Information Retrieval
Beschäftigt sich mit den Auffinden vorn Informationen in großen un- oder wenig strukturierten Textbeständen.
Suchmaschinentechnik
Grundidee
Es wird ein (invertierter) Index aufgebaut, in dem Sinne, daß einem Wort eine Liste der Verweise in den Texten zugeordnet wird.
Die Struktur der Texte steht zur Debatte:
- keine
- SQML/XML-Tags
- verschiedene Backends
Die Verweise können Attribute wie Datei, Zeilennummer, Spaltennummer oder Offset enthalten. Boolsche Operatoren können dann in Mengenoperationen auf die Verweismengen umgesetzt werden.
Nach Glimpse-Papier werden aber die invertierten Indexe sehr groß (50-300% des orginalen Textes.)
Exakte Schreibweise sei zudem erforderlich.
Alternativen seinen:
- Signature-Files
- nur 10-30 % des orginalen Textes, langsamer beim suchen
- Kombinierte Suche -> glimpse
Implementierungen
- Isearch 1996 vom Center for Networked Information Discovery and Retrieval (CNIDR)
- Textindizierer für diverse Formate
Kommerzielle Variante
- htdig
- Teile
Es gibt auch ein PHP-Interface.
- Glimpse
- 1993 , University of Arizona
- sehr kleiner Index (2-4% des Textes)
- Boolsche ausdrücke
- Index Wörter in 256-Byte-Bereichen
- agrep als interne Suchmaschine
Informatik- und Netzwerkverein Ravensburg e.V Rudolf Weber