Zur Tokenisierung

Der Output dieser ersten, sehr groben Analyse sind die sogenannten Textformen, das sind Wörter, Zahlen, einzelne Zeichen oder Mischungen davon.
Bereits an dieser Stelle werden bestimmte Eigenschaften der Wortstruktur in einer Wortstrukturbeschreibung protokolliert, die im späteren Verlauf der Analyse ergänzt wird und anhand derer über die weitere Behandlung des Tokens entschieden wird. Diese Merkmale sind z.B. die Originalorthographie und die Länge der Form, Angaben über Groß- und Kleinschreibung oder zum Kontext.

Diese Texteinheiten werden dann extrahiert, die Schreibung normalisiert und Informationen zum gefundenen Kontext festgehalten. An dieser Stelle werden auch eindeutig erkennbare Satz- und Klammerzeichen isoliert.

Der Output nach der Isolierung von Satz- und Klammerzeichen wird als A-Formen bezeichnet, in Anlehnung an "analysierbare Formen".
Je nach dem Aufbau und der Form dieser A-Formen erfolgt nun eine bestimmte Typisierung, die die weitere Behandlung dieser Formen steuert. So unterliegen A-Formen, die nur aus Buchstaben bestehen, einer bestimmten weiteren Analyse, während Formen, die nicht nur aus Buchstaben bestehen, einer anderen Analyse zugeführt werden, da hier ja bereits einige Möglichkeiten der Analyse ausscheiden.
Formal heißen diese beiden Varianten B-Formen (wie Buchstabenformen) und X-Formen (sonstige).
B- und X-Formen werden orthographisch normalisiert, d.h. kleingeschrieben, und jede dieser Formen ist mit der erwähnten Wortstrukturbeschreibung versehen.

Zurück zur vorigen Seite