next up previous
Nächste Seite: Weitere Anwendungen Aufwärts: Vergleich mit anderen Retrieval-Methoden Vorherige Seite: Vorarbeit, LSI-ähnliche Versuche

Diskussion

Zweifellos führt die LSI-Methode bisweilen zu einer Verbesserung der Suchergebnisse, jedoch nicht in allen Fällen. In den o.g. Vergleichsuntersuchungen mit MED und CISI hat LSI teilweise schlechter abgeschnitten als die anderen Methoden - dabei darf allerdings nicht vergessen werden, daß die beiden anderen Methoden wegen des zur Auswahl der Terme verwendeten Stemming-Verfahrens im Vorteil waren.
Das Stemming-Verfahren stellt in gewisser Hinsicht eine Möglichkeit der Lösung des Synonymie-Problems dar: Zwei morphologische Varianten ein und desselben Wortes können als Synonyme betrachtet werden; in einem Retrieval-Verfahren ohne Term-Stemming werden sie aber wie zwei unabhängige Wörter behandelt.

LSI versucht ebenfalls, das Synonymie-Problem zu lösen - indem zwar ,,synonyme`` Wörter unabhängig voneinander behandelt, anschließend aber die Term-Dokument-Matrix $ A$ durch Umrechnung in die Variante $ A_k$ gewissermaßen verfälscht wird, und zwar so, daß die Vektoren synonymer Wörter bzw. die Vektoren der sie enthaltenden Dokument, einander näher gebracht werden. Je kleiner $ k$, desto stärker der verfälschende Effekt.

Zur Wahl von k siehe auch , wo die mittlere Präzision in Abhängigkeit von k dargestellt wird.

In den Tests zeigt sich, daß LSI besser (MED) oder wenigstens gleich gut (CISI) zur Lösung des Synonymie-Problemt geeignet ist wie Retrieval-Verfahren, die Stemming benutzen.