Information Retrieval

Beschäftigt sich mit den Auffinden vorn Informationen in großen un- oder wenig strukturierten Textbeständen.

Wikipedia

Suchmaschinentechnik

Grundidee

Es wird ein (invertierter) Index aufgebaut, in dem Sinne, daß einem Wort eine Liste der Verweise in den Texten zugeordnet wird.

Die Struktur der Texte steht zur Debatte:

Die Verweise können Attribute wie Datei, Zeilennummer, Spaltennummer oder Offset enthalten. Boolsche Operatoren können dann in Mengenoperationen auf die Verweismengen umgesetzt werden.

Nach Glimpse-Papier werden aber die invertierten Indexe sehr groß (50-300% des orginalen Textes.)
Exakte Schreibsweise sei zudem erforderlich.

Alternativen seinen:

Signature-Files
nur 10-30 % des orginalen Textes, langsamer beim suchen
Kombinierte Suche → glimpse

Implementierungen

Isearch 1996 vom Center for Networked Information Discovery and Retrieval (CNIDR)
Textindizierer für diverse Formate
Kommerzielle Variante
htdig
Teile
Es gibt auch ein PHP-Interface.
Glimpse
1993 , University of Arizona
[WP]
Microsoft Indexing Service
Elasticsearch [WP]
Xapian

Über Suchmaschinen im Internet

Vivek Wadhwa : Why we deperately need a new and better Google
en Wiki über Page Rank
beschreibt den Algorithmus de früher bei Google verwendet wurde.
JG: Was wir über Suchmaschinen wissen wollen
fordert auf, den Suchalgorithmus offenzulegen/transparenter zumachen als Nutzer die Ergebnisse kritisch interpretieren zu können.
Suchmaschinen Datenbank
beschreibt kritisch die Suchmaschinentechnik

weitere Arbeiten

Kolibri Tu Harburg
kombiniert Fuzzy-Logik und kombiniert strukturierte und taxonomische Suche mit Volltextsuchtechniken

Semantische Suche

Eine semantische Suchmaschine erschließt die Bedeutung [WP] z.B. durch Fragepronomen .
Es werden Ontologien dazu herangezogen. [WP]
Einführung in die Semantische Suche
beschreibt semantisches Web
semager.de

Informatik- und Netzwerkverein Ravensburg e.V Rudolf Weber