Im folgenden wird versucht, den Ablauf der Lemmatisierung zu skizzieren.
Der Lemmatisierer erhält als Input in Sätze segmentierten Text. Diese Segmentierung wird von einem Satzendeerkennungsprogramm geleistet, das nicht zum Umfang des CISLEX gehört.
1. Der erste Analyseschritt besteht nun in der Identifikation der für die Analyse relevanten Texteinheiten, der Tokens. Das Verfahren heißt dementsprechend Tokenisierung.
Als relevante Texteinheit gilt hier zunächst alles, was zwischen Spatia steht.
2. Der zweite Schritt besteht in der Analyse der Tokens und der anschließenden Ausgabe des lemmatisierten Textes, d.h. der Text erscheint in Tokens aufgeteilt, so daß jedes Token am Anfang einer Zeile steht, gefolgt von den ermittelten morphosyntaktischen und semantischen Angaben.
3. Ein fakultativer dritter Schritt besteht in der Disambiguierung mehrdeutiger Formen, wenn die Analyse zu keinem eindeutigen Ergebnis geführt hat