Computerlinguistischer Ansatz

Wenn ein Automat, wie gewünscht, selbständig Repräsentationen von Textdokumenten erstellen soll, muß ihm das entsprechende Wissen dazu mitgegeben werden.
Dabei handelt es sich vor allem um linguistisches Wissen, also Wissen um sprachliche Regularitäten und die sprachliche Systematik.
In diesem Sinne kann dieser Ansatz daher als linguistischer oder computerlinguistischer Ansatz bezeichnet werden.
Eine typische gewünschte Operation wäre etwa die Zusammenführung verschiedener Flexionsformen eines Lexems durch die Anwendung morphologischer Regeln.

Der computerlinguistische Ansatz läßt sich entsprechend den linguistischen Beschreibungsebenen in speziellere Ansätze oder Verfahren untergliedern:

Graphematische Verfahren basieren auf der Analyse von Buchstabenfolgen; sie werden besonders im Bereich der Morphologie zur Zusammenführung von Flexions- und Derivationsformen eingesetzt.
Ein Beispiel ist die Lexikographische Grundformenreduktion nach KUHLEN (vgl. FERBER 1999/2000:23f.).

Morphologische Verfahren operieren ähnlich den lexikalischen Verfahren auf Morphem- bzw. Wortebene.
Die Unterscheidung nach morphologischen und lexikalischen Verfahren ist etwas willkürlich, da sich in der Praxis morphologische und lexikalische Ebene überschneiden.
Die Unterscheidung soll wohl andeuten, daß im einen Fall mit Hilfe eines Wörterbuchs gearbeitet wird (lexikalische Verfahren, Lemmatisierung; s.u.) während im anderen Fall (morphologische Verfahren, Stemming; s.u.) ohne ein Wörterbuch und nur aufgrund eines bestimmten Zerlegungsalgorithmus gearbeitet wird.
Ziel ist in beiden Fällen, morphologische Varianten eines Lexems/Morphems auf eine Grundform zurückzuführen, so daß bei einer bestimmten Anfrage nicht nur nach einem wortwörtlichen String gesucht werden kann, sondern auch nach dessen systematischen Varianten. Dadurch erhöht sich also tendenziell der Recall.
Dies gilt auch für die Query, die ebenfalls einer solchen Analyse unterzogen werden kann.

Lexikalische Verfahren operieren auf der Wortebene und greifen dabei auf ein elektronisches Wörterbuch zurück.
Um bei der Analyse von Komposita, Mehrwortlexemen oder Polysemen hilfreich zu sein, müssen im Lexikon entsprechende Relationen kodiert sein, z.B.:
- Flexionsform (Vollform) - Grundform
- Derivationsform - zugehörige Grundform
- Komposita - zugehörige Dekomposition
- Grundform - Angabe von Synonymen.

Das Wörterbuch muß ständig gepflegt werden (z.B. nach Domänenwortschatz); außerdem ist es (s.o.) anwendungsabhängig.
Vollformenlexika sind sinnvoll bei der Bearbeitung großer Korpora, da sie eine deutliche schnellere Lookup-Zeit haben als Grundformenlexika, bei denen der Korpustext erst langwierig in Grundformen umgewandelt werden muß.
Andererseits benötigen sie große Speicherkapazitäten.
Grund- oder Stammformenlexika arbeiten mit einem deutlich kleineren Lexikon, können aber andererseits unter Umständen weniger Formen eines Textes analysieren als ein Vollformenlexikon.

Syntaktische Verfahren stellen auf syntaktischer Ebene Spezifikationen bereit, nach denen anhand eines Termkontextes über Relevanz oder Nichtrelevanz dieses Terms entschieden werden kann.
Entsprechend werden sie bei der Analyse mehrgliedriger Ausdrücke wie Komposita und Mehrwortlexemen eingesetzt.
So ist es möglich, je nach Regel nur bestimmte Vorkommen eines Terms im Dokument als anfragerelevant zu berücksichtigen, beispielsweise:
- wenn ein bestimmter Kontext vorliegt (Wort 1 in bestimmter Umgebung von Wort 2),
- wenn ein bestimmter Wortabstand zwischen den einzelnen Wörtern nicht überschritten wird,
- wenn die Reihenfolge der Konstituenten mit einer Regel übereinstimmt,
- wenn sich alle Komponenten in einem Satz befinden oder wenn für die einzelnen Komponenten Grundformgleichheit mit dem Wörterbucheintrag besteht.

Die Kodierung semantischer Information erlaubt mehr als jedes andere der vorgestellten Verfahren die Expansion von Anfragen, da in diesem Fall eine über Möglichkeiten der morphologischen Abgleichung weit hinausgehendes Kriterium zur Verfügung gestellt wird.
Allerdings müssen Suchbegriffe bereits im Tool erfaßt sein, so daß hier mit größeren Lücken zu rechnen ist, was das Vorkommen bestimmter Wörter angeht.
Ein Beispiel hierfür ist das Tool WordNet.