Zeit und Ort:
Mi 9-11 , Raum 1.15
In der Vorlesung geht es um die Extraktion und Klassifikation der sogenannten Mehrwortlexeme.
Dabei werden Ansätze sowohl aus der regelbasierten wie auch aus der statistisch basierten
Computerlinguistik vorgestellt. Bei dem Terminus "Mehrwortlexem" handelt sich um einen
relativ allgemeinen Sammelbegriff für Folgen von Ausdücken, die in irgendeiner Weise enger
zusammengehören als die Ausdrücke freier Syntagmen und deren Gesamtbedeutung sich zumeist
nicht als Funktion der Bedeutungen ihrer Teilausdrücke auffassen läßt.
Die Hauptthese der Veranstaltung ist,
daß die Anzahl der MWLs in natürlichsprachlichen Texten viel größer ist, als man
üblicherweise annimmmt (mehr als ein Drittel eines Textes) und daß diese
ebenfalls in elektronische Wörterbücher aufgenommen werden müssen. Somit
werden zwar die Lexika um einige Größenordnungen umfangreicher, die
Anzahl der lexikalischen Entscheidungen beim Tagging und Parsen sinkt
hingegen.