next up previous
Nächste Seite: TREC: Über 1 Million Aufwärts: Vergleich mit anderen Retrieval-Methoden Vorherige Seite: MED: Sammlung medizinischer Abstracts

CISI: Sammlung von Abstracts aus der Informatik

Ein zweiter Vergleich wurde auf einem ebenfalls händisch vorbereiteten Testset von 1460 Abstracts und 35 Queries aus der Informatik durchgeführt. Die drei Methoden wurden in derselben Weise angewandt wie bei MED, s. Tab. 2.

Tabelle 2: Termgewinnung bei Versuchen mit CISI
System Termgewinnung Verwendete Terme
SMART Stopwortliste, stemming 5019
Voorhees Stopwortliste, stemming, Termgewichtung 4941
LSI Stopwortliste, kein stemming 5135


Leider stand hier keine Kurve zur Verfügung; den Ausführungen in [2] zufolge sind die Ergebnisse jedoch nicht so gut wie für MED. Die precision liegt für LSI nie höher als 30% (gleichgültig mit welchem Recall), für SMART liegt sie z.T. erheblich höher. Deerwester et al. vermuten hierin die Auswirkungen des Stemming (auf das ja für LSI verzichtet wurde). Und tatsächlich berichten sie von Vergleichstest, in denen auch für LSI mit Stemming gearbeitet wurde, was die Precision-Werte etwa auf die von SMART ansteigen ließ, jedoch nicht darüber hinaus.

Hierdurch wird deutlich, daß die ,,latente semantische Struktur`` von dem hier vorgestellten LSI-Verfahren nicht hundertprozentig erkannt wird - sonst würden die Effekte des fehlenden Stemmings ausgeglichen: Haus und Häuser beispielweise müßten, da sie zur Semantik von Dokumenten etwa das Gleiche beitragen, an sehr ähnlichen Stellen im Vektorraum zu liegen kommen, auch ohne daß sie durch Stemming auf dasselbe Wort abgebildet werden.


next up previous
Nächste Seite: TREC: Über 1 Million Aufwärts: Vergleich mit anderen Retrieval-Methoden Vorherige Seite: MED: Sammlung medizinischer Abstracts