Zur Disambiguierung

Die Disambiguierungsverfahren bestehen in einer Hierarchie von Filtern, die nacheinander durchlaufen und beim Auflösen einer Ambiguität abgebrochen werden.
Sie stellen eine Kombination statistischer und regelbasierter Verfahren dar.
Es werden aber nicht alle Ambiguitäten aufgelöst, da das Lexikon nicht in allen Fällen genügend spezifische Information enthält.
Die Disambiguierungsverfahren greifen auf die in der Wortbeschreibung festgehaltenen Informationen zurück, aufgrund derer nun versucht wird, bestimmte Analysemöglichkeiten auszuschließen.

1) Durchlaufen des Groß-/Kleinfilters

Für kleingeschriebene Wörter sind z.B Analysen als Nomen auszuschließen (bis auf einige Sonderfälle).
Großgeschriebene Formen, sofern sie nicht am Satzanfang oder nach einem bestimmten Satzzeichen stehen, sind in der Regel Nomen. Kommt für ein Wort eine Analyse als EN in Betracht, so muß das Wort im Text groß geschrieben worden sein usw.

2) Durchlaufen des Ähnlichkeitsfilters

Prinzip: Bei Mehrfachanalysen sollte diejenige Form ausgewählt werden, deren Form am stärksten mit der im Lexikon übereinstimmt.
Dieser Filter ist v.a. bei der Analyse von Eigennamen und Abkürzungen im Einsatz.

3) Disambiguierung aufgrund des Kontextes

Zugrundegelegt werden bestimmte Satz- oder syntagmatische Regeln, aufgrund derer bestimmte Analysen ausgeschlossen werden können.
Befindet sich eine zu disambiguierende Form in einer Kongruenzkette, so kann versucht werden, anhand dieses Kontextes eine Form zu bestimmen.
Dies ist möglich innerhalb der Kongruenzketten SUBJ - VFIN (N,P), PRÄP- NP (KNG), innerhalb der NP (KNG).

4) Disambiguierung aufgrund von Wahrscheinlichkeiten

Außerdem gibt es eine Reihe von Heuristiken, die auf linguistischen Wahrscheinlichkeiten beruhen, z.B. die Segmentierung bei der Kompositaanalyse.
Nichterkannte Formen im Text können sein fremdsprachliche, veraltete, mundartliche Formen, Fachbegriffe, Interjektionen, produktive Derivationen oder komplexe Formen mit unbekannten Teilen.

Zurück zur vorigen Seite