Zur Wortanalyse

Im folgenden verfolgen wir die Analyse der B-Formen, also die reine Wortanalyse, weiter.
Es wird nach 4 Typen von B-Formen unterschieden:

  1. Reguläre Wortformen (genannt WB-Formen):
  2. sie bestehen aus mehr als einem Buchstaben, besitzen mindestens einen Vokal und höchstens der erste Buchstabe erscheint im Originaltext großgeschrieben (typisches Erscheinungsbild für einfache u. komplexe Formen, Eigennamen, aber auch Abkürzungen und Akronyme);

  3. Einzelne Buchstaben und Konsonantenfolgen (CB-Formen):

    hier handelt es sich in der Regel um Abkürzungen

  4. Wortformen, die nur aus Großbuchstaben bestehen (GB-Formen):
  5. diese können einerseits normale Wörter ungewöhnlich geschrieben, andererseits Abkürzungen oder Akronyme sein; und schließlich

  6. Wortformen, in deren Wortinnerem Großbuchstaben auftreten (MB-Formen):
  7. hier handelt es sich in der Regel um Namen, Abkürzungen oder Akronyme.

"Der Analyseprozeß sieht die Erzeugung aller in Frage kommenden Lemmatisierungen vor" (Maier-Meyer 1995: 98) - daher wird an dieser Stelle jede der WB-Formen in verschiedenen Lexikonmodulen des CISLEX nachgeschlagen bzw. auf weitere Analysierbarkeit (Komposita) getestet.

Die Form wird nacheinander auf folgende Merkmale getestet (Abbruch bei erfolgreicher Analyse, d.h. Match mit Lexikoneintrag):

1. Lookup im CISLEX-EF (Modul einfache Formen); in einigen unklaren Fällen (nominalisierte Formen) müssen außerdem eigens Lemmata generiert werden, die als weitere Analysemöglichkeiten gelten

2. Zerlegung und Lookup der Bestandteile im o.g. Modul (mehr)

3. Lookup im Eigennamen-Modul (mehr)

4. Lookup im Abkürzungs-Modul

Der Output dieser Reduktion wird in einer Liste gesammelt und eventuell weiter an die Disambiguierung übergeben.

Komplexe Formen werden durch Backtracking in alle möglichen Unterglieder zerlegt.
Es wird dann versucht, diese in eine Folge der Form [Vorderglied][Vorderglied]* [Hinterglied] zu zerlegen. Dabei wird zuerst versucht, ein Hinterglied zu identifizieren, das den Kriterien genügt (Suffix,Nomen, Verb, Adjektiv, Adverb), und anschließend werden die verbleibenden Vorderglieder durch Lookup im ~-EF überprüft. Fugenformen stellen außer in der Initialposition ebenfalls gültige Vorderglieder dar.

Es werden alle potentiellen Lemmata aus den Segmentierungen generiert, wobei die Lemmaklasse und die morphosyntaktischen Merkmale durch das Hinterglied vorgegeben sind.

"Die Lemmaform ergibt sich durch Konkatenierung der Vorderglieder mit der Lemmaform des Hinterglieds, wobei an allen Segmenttrennstellen zusätzlich ein Separatorzeichen ('|') eingefügt wird." (MM 1995:101).

Für komplexe Zahlausdrücke gibt es spezielle Zerlegungsmechanismen, die an dieser Stelle nicht weiter erläutert werden (näheres dazu bei Maier-Meyer 1995:101f.).

Eigennamen werden im CISLEX-Eigennamen-Modul nach verschiedenen semantischen Kriterien unterteilt (z.B. Personen, Geos, Firmen, u.a.).
Die Kodierung der Eigennamen folgt - falls sie flektieren - den Kategorien des EF-Moduls.

Zurück zur vorigen Seite