Nächste Seite: Weitere Anwendungen
Aufwärts: Vergleich mit anderen Retrieval-Methoden
Vorherige Seite: Vorarbeit, LSI-ähnliche Versuche
Zweifellos führt die LSI-Methode bisweilen zu einer Verbesserung der
Suchergebnisse, jedoch nicht in allen Fällen. In den o.g.
Vergleichsuntersuchungen mit MED und CISI hat LSI teilweise schlechter
abgeschnitten als die anderen Methoden - dabei darf allerdings nicht
vergessen werden, daß die beiden anderen Methoden wegen des zur Auswahl der
Terme verwendeten Stemming-Verfahrens im Vorteil waren.
Das Stemming-Verfahren stellt in gewisser Hinsicht eine Möglichkeit der Lösung
des Synonymie-Problems dar: Zwei morphologische Varianten ein und desselben
Wortes können als Synonyme betrachtet werden; in einem Retrieval-Verfahren
ohne Term-Stemming werden sie aber wie zwei unabhängige Wörter behandelt.
LSI versucht ebenfalls, das Synonymie-Problem zu lösen - indem zwar
,,synonyme`` Wörter unabhängig voneinander behandelt, anschließend aber die
Term-Dokument-Matrix
durch Umrechnung in die Variante
gewissermaßen
verfälscht wird, und zwar so, daß die Vektoren synonymer Wörter bzw. die
Vektoren der sie enthaltenden Dokument, einander näher gebracht werden. Je
kleiner
, desto stärker der verfälschende Effekt.
Zur Wahl von k siehe auch
, wo die mittlere Präzision in Abhängigkeit von
k dargestellt wird.
In den Tests zeigt sich, daß LSI besser (MED) oder wenigstens gleich gut
(CISI) zur Lösung des Synonymie-Problemt geeignet ist wie Retrieval-Verfahren,
die Stemming benutzen.