next up previous
Nächste Seite: Synonymerkennung, Wort-Clustering Aufwärts: Weitere Anwendungen Vorherige Seite: Weitere Anwendungen

Sprachübergreifendes Retrieval

Liegen die Dokumente $ d\in D$ in verschiedenen Sprachen $ L_1,\ldots ,L_m$ vor, ist es nicht sinnvoll, das Vektorraummodell oder LSI direkt anzuwenden; man möchte ja, daß für ein Query in Sprache $ L_i$ stets auch relevante Dokumente in allen anderen Sprachen $ L_j$ zurückgeliefert werden. Beim gewöhnlichen Vektorraummodell würden die Terme aber als (linear unabhängige) Achsen des Vektorraums dargestellt, entsprechend wären auch die relevanten Dokumente nicht an einer Stelle konzentriert, sondern an mindestens m Stellen (für jede Sprache gäbe es mindestens eine isolierte Gruppe von Dokumenten). Auch im Standard-LSI-Verfahren würden Terme verschiedener Sprachen aber durch sehr weit voneinander entfernt liegende Punkte im Vektorraum charakterisiert, denn die Nähe zweier Terme (dargestellt als Vektoren) richtet sich dort ja nach der Anzahl der Dokumente, in denen die beiden gemeinsam vorkommen - und das wäre für zwei Terme aus verschiedenen Sprachen natürlich nie der Fall.

Beim Verfahren nach LANDAUER und LITTMAN (1990) für multinguales Information Retrieval wird daher nicht nur LSI verwendet, sondern es wird die Dokumentenmenge vorher durch eine Anzahl mehrsprachig vorliegender Dokumente angereichert: Diese enthalten ihren Inhalt mehrfach, nämlich in allen erwünschten Sprachen $ L_1,\ldots ,L_m$. Auf diese Weise wird sichergestellt, daß semantisch nahe Terme (verschiedener Sprachen) auch tatsächlich in gemeinsamen Dokumenten vorkommen.

Tab. 4 zeigt die Ergebnisse dieses Verfahrens für ein Datenset von 3982 Abstracts, wobei 982 zweisprachig vorlagen, 1500 in Englisch, 1500 in Französisch (s. [3]; die französischen waren genau die Übersetzungen der englischen (das war wegen der speziellen Art der Evaluation notwendig, s.u.) Aus den zweisprachigen wurde die SVD-Matrix berechnet, die 3000 einsprachigen wurden mit dem Fold-In-Verfahren integriert. Für die zweite Zeile der Tabelle (,,No Overlap``) wurden alle Wörter in englischen Texten mit einem ,,E``, alle Wörter in französischen Texten mit einem ,,F`` versehen, um zwei vollkommen disjunkte Sprachen zu simulieren.

Für die Evaluation wurden einsprachige, im Datenset vorkommende Dokumente als Queries verwendet; die Prozentzahl gibt an, in wie vielen Fällen gerade die andersprachige Entsprechung des Query-Dokumentes an erster Stelle zurückgegeben wurde. Daß mit LSI sogar im ,,No-Overlap``-Fall Ergebnisse von fast 100% erzielt werden, bestätigt die Hypothese, daß mit dem LSI-Verfahren tatsächlich die latente Semantik der Wörter und Dokumente erfaßt wird (denn entsprechend der ,,Overlap``-Technik müssen dort ja Dokumente gematcht werden, die kein einziges gemeinsames Wort enthalten).

Tabelle: Ergebnisse für Cross-Language-Retrieval mit und ohne LSI
    Eng $ \rightarrow$Fr Fr $ \rightarrow$Eng
Overlap Non-LSI 47.4% 49.5%
  LSI 98.3% 98.5%
No-Overlap Non-LSI 0.1% 0.1%
  LSI 98.7% 99.1%


Es wurden bereits erfolgreich weitere Versuche mit Englisch-Japanisch, Englisch-Griechisch und Englisch-Französisch durchgeführt. Insbesondere im letztgenannten Versuch waren die Ergebnisse ebenso gut wie in einem Vergleichstest, in dem jedes Query nacheinander in beiden Sprachen eingegeben wurde.


next up previous
Nächste Seite: Synonymerkennung, Wort-Clustering Aufwärts: Weitere Anwendungen Vorherige Seite: Weitere Anwendungen