Beim Verfahren nach LANDAUER und LITTMAN (1990) für
multinguales Information Retrieval wird daher nicht nur LSI verwendet, sondern
es wird die Dokumentenmenge vorher durch eine Anzahl mehrsprachig vorliegender
Dokumente angereichert: Diese enthalten ihren Inhalt mehrfach, nämlich in
allen erwünschten Sprachen
. Auf diese Weise wird
sichergestellt, daß semantisch nahe Terme (verschiedener Sprachen) auch
tatsächlich in gemeinsamen Dokumenten vorkommen.
Tab. 4 zeigt die Ergebnisse dieses Verfahrens für ein Datenset von 3982 Abstracts, wobei 982 zweisprachig vorlagen, 1500 in Englisch, 1500 in Französisch (s. [3]; die französischen waren genau die Übersetzungen der englischen (das war wegen der speziellen Art der Evaluation notwendig, s.u.) Aus den zweisprachigen wurde die SVD-Matrix berechnet, die 3000 einsprachigen wurden mit dem Fold-In-Verfahren integriert. Für die zweite Zeile der Tabelle (,,No Overlap``) wurden alle Wörter in englischen Texten mit einem ,,E``, alle Wörter in französischen Texten mit einem ,,F`` versehen, um zwei vollkommen disjunkte Sprachen zu simulieren.
Für die Evaluation wurden einsprachige, im Datenset vorkommende Dokumente als
Queries verwendet; die Prozentzahl gibt an, in wie vielen Fällen gerade die
andersprachige Entsprechung des Query-Dokumentes an erster Stelle
zurückgegeben wurde. Daß mit LSI sogar im ,,No-Overlap``-Fall Ergebnisse von
fast 100% erzielt werden, bestätigt die Hypothese, daß mit dem LSI-Verfahren
tatsächlich die latente Semantik der Wörter und Dokumente erfaßt wird (denn
entsprechend der ,,Overlap``-Technik müssen dort ja Dokumente gematcht werden,
die kein einziges gemeinsames Wort enthalten).
|