Information Retrieval

Beschäftigt sich mit den Auffinden vorn Informationen in großen un- oder wenig strukturierten Textbeständen.

Suchmaschinentechnik

Grundidee

Es wird ein (invertierter) Index aufgebaut, in dem Sinne, daß einem Wort eine Liste der Verweise in den Texten zugeordnet wird.

Die Struktur der Texte steht zur Debatte:

Die Verweise können Attribute wie Datei, Zeilennummer, Spaltennummer oder Offset enthalten. Boolsche Operatoren können dann in Mengenoperationen auf die Verweismengen umgesetzt werden.

Nach Glimpse-Papier werden aber die invertierten Indexe sehr groß (50-300% des orginalen Textes.)
Exakte Schreibweise sei zudem erforderlich.

Alternativen seinen:

Signature-Files
nur 10-30 % des orginalen Textes, langsamer beim suchen
Kombinierte Suche -> glimpse

Implementierungen

Isearch 1996 vom Center for Networked Information Discovery and Retrieval (CNIDR)
Textindizierer für diverse Formate
Kommerzielle Variante
htdig
Teile
Es gibt auch ein PHP-Interface.
Glimpse
1993 , University of Arizona

Informatik- und Netzwerkverein Ravensburg e.V Rudolf Weber