Die Behandlung von Mehrwortlexemen in der maschinellen Sprachverarbeitung

F. Guenthner

Vorlesung

Zeit und Ort:
Mi 9-11 , Raum 1.15

In der Vorlesung geht es um die Extraktion und Klassifikation der sogenannten Mehrwortlexeme. Dabei werden Ansätze sowohl aus der regelbasierten wie auch aus der statistisch basierten Computerlinguistik vorgestellt. Bei dem Terminus "Mehrwortlexem" handelt sich um einen relativ allgemeinen Sammelbegriff für Folgen von Ausdücken, die in irgendeiner Weise enger zusammengehören als die Ausdrücke freier Syntagmen und deren Gesamtbedeutung sich zumeist nicht als Funktion der Bedeutungen ihrer Teilausdrücke auffassen läßt. Die Hauptthese der Veranstaltung ist, daß die Anzahl der MWLs in natürlichsprachlichen Texten viel größer ist, als man üblicherweise annimmmt (mehr als ein Drittel eines Textes) und daß diese ebenfalls in elektronische Wörterbücher aufgenommen werden müssen. Somit werden zwar die Lexika um einige Größenordnungen umfangreicher, die Anzahl der lexikalischen Entscheidungen beim Tagging und Parsen sinkt hingegen.

Literaturhinweise

Literaturhinweise werden im Laufe des Semesters gegeben.

Voraussetzungen

keine