Information Retrieval
Beschäftigt sich mit den Auffinden vorn Informationen in großen un- oder wenig strukturierten Textbeständen.
Wikipedia
Suchmaschinentechnik
Grundidee
Es wird ein (invertierter) Index aufgebaut, in dem Sinne, daß einem Wort eine Liste der Verweise in den Texten zugeordnet wird.
Die Struktur der Texte steht zur Debatte:
- keine
- SQML/XML-Tags
- JSON
- verschiedene Backends
Die Verweise können Attribute wie Datei, Zeilennummer, Spaltennummer oder Offset enthalten. Boolsche Operatoren können dann in Mengenoperationen auf die Verweismengen umgesetzt werden.
Nach Glimpse-Papier werden aber die invertierten Indexe sehr groß (50-300% des orginalen Textes.)
Exakte Schreibsweise sei zudem erforderlich.
Alternativen seinen:
- Signature-Files
- nur 10-30 % des orginalen Textes, langsamer beim suchen
- Kombinierte Suche → glimpse
Implementierungen
- Isearch 1996 vom Center for Networked Information Discovery and Retrieval (CNIDR)
- Textindizierer für diverse Formate
Kommerzielle Variante
- htdig
- Teile
Es gibt auch ein PHP-Interface.
- Glimpse
- 1993 , University of Arizona
[WP]
- sehr kleiner Index (2-4% des Textes)
- Boolsche ausdrücke
- Index Wörter in 256-Byte-Bereichen
- agrep als interne Suchmaschine
- Microsoft Indexing Service
- Elasticsearch [WP]
- Xapian
Über Suchmaschinen im Internet
- Vivek Wadhwa : Why we deperately need a new and better Google
- en Wiki über Page Rank
- beschreibt den Algorithmus de früher bei Google verwendet wurde.
- JG: Was wir über Suchmaschinen wissen wollen
- fordert auf, den Suchalgorithmus offenzulegen/transparenter zumachen als Nutzer die Ergebnisse kritisch interpretieren zu können.
- Suchmaschinen Datenbank
-
beschreibt kritisch die Suchmaschinentechnik
weitere Arbeiten
- Kolibri Tu Harburg
-
kombiniert Fuzzy-Logik und kombiniert strukturierte und taxonomische Suche mit Volltextsuchtechniken
Semantische Suche
Eine semantische Suchmaschine erschließt die Bedeutung [WP] z.B. durch Fragepronomen .
Es werden Ontologien dazu herangezogen. [WP]
- Einführung in die Semantische Suche
-
beschreibt semantisches Web
- semager.de
Informatik- und Netzwerkverein Ravensburg e.V Rudolf Weber