Das Lemmatisierungsverfahren

Im folgenden wird versucht, den Ablauf der Lemmatisierung zu skizzieren.

Der Lemmatisierer erhält als Input in Sätze segmentierten Text. Diese Segmentierung wird von einem Satzendeerkennungsprogramm geleistet, das nicht zum Umfang des CISLEX gehört.

1. Der erste Analyseschritt besteht nun in der Identifikation der für die Analyse relevanten Texteinheiten, der Tokens. Das Verfahren heißt dementsprechend Tokenisierung.
Als relevante Texteinheit gilt hier zunächst alles, was zwischen Spatia steht.

Mehr zur Tokenisierung

2. Der zweite Schritt besteht in der Analyse der Tokens und der anschließenden Ausgabe des lemmatisierten Textes, d.h. der Text erscheint in Tokens aufgeteilt, so daß jedes Token am Anfang einer Zeile steht, gefolgt von den ermittelten morphosyntaktischen und semantischen Angaben.

Mehr zur Analyse

3. Ein fakultativer dritter Schritt besteht in der Disambiguierung mehrdeutiger Formen, wenn die Analyse zu keinem eindeutigen Ergebnis geführt hat

Mehr zur Disambiguierung