Nächste Seite: TREC: Über 1 Million
Aufwärts: Vergleich mit anderen Retrieval-Methoden
Vorherige Seite: MED: Sammlung medizinischer Abstracts
Ein zweiter Vergleich wurde auf einem ebenfalls händisch vorbereiteten Testset
von 1460 Abstracts und 35 Queries aus der Informatik durchgeführt. Die drei
Methoden wurden in derselben Weise angewandt wie bei MED, s. Tab. 2.
Tabelle 2:
Termgewinnung bei Versuchen mit CISI
System |
Termgewinnung |
Verwendete Terme |
SMART |
Stopwortliste, stemming |
5019 |
Voorhees |
Stopwortliste, stemming, Termgewichtung |
4941 |
LSI |
Stopwortliste, kein stemming |
5135 |
|
Leider stand hier keine Kurve zur Verfügung; den Ausführungen in
[2] zufolge sind die Ergebnisse jedoch nicht so gut wie für MED.
Die precision liegt für LSI nie höher als 30% (gleichgültig mit welchem
Recall), für SMART liegt sie z.T. erheblich höher. Deerwester et al. vermuten
hierin die Auswirkungen des Stemming (auf das ja für LSI verzichtet wurde).
Und tatsächlich berichten sie von Vergleichstest, in denen auch für LSI mit
Stemming gearbeitet wurde, was die Precision-Werte etwa auf die von SMART
ansteigen ließ, jedoch nicht darüber hinaus.
Hierdurch wird deutlich, daß die ,,latente semantische Struktur`` von dem hier
vorgestellten LSI-Verfahren nicht hundertprozentig erkannt wird - sonst
würden die Effekte des fehlenden Stemmings ausgeglichen: Haus und
Häuser beispielweise müßten, da sie zur Semantik von Dokumenten etwa das
Gleiche beitragen, an sehr ähnlichen Stellen im Vektorraum zu liegen kommen,
auch ohne daß sie durch Stemming auf dasselbe Wort abgebildet werden.
Nächste Seite: TREC: Über 1 Million
Aufwärts: Vergleich mit anderen Retrieval-Methoden
Vorherige Seite: MED: Sammlung medizinischer Abstracts