3.4. Handbuch zur Verwendung von WittLex

Diese kleine Einführung ist dazu gedacht, den Einstieg in die Arbeit mit WiTTLex zu vereinfachen und einige grundlegende Informationen zu sammeln.

3.4.1. Was ist WiTTLex?

WiTTLex ist ein wittgenstein-spezifisches digitales Lexikon, welches erstellt wurde, um die computerlinguistische Bearbeitung des Nachlasses von Ludwig Wittgenstein zu ermöglichen. Es wird vor allem in der Suchmaschine WiTTFind eingesetzt und ist die Basis für die Untersuchungen der Wittgenstein Advanced Search Tools (WAST). Dementsprechend kann es besonders gut verwendet werden, um die Texte Wittgensteins zu analysieren und verarbeiten. Es enthält sowohl die Wortformen, aus denen sich der Text des Nachlasses zusammensetzt, als auch Wittgensteins selbsterfundene Fantasiewörter und andere spezielle Wörter aus seinem Sprachgebrauch. Alle Worte werden in ihren Lexikoneinträgen einerseits mit grammatischen Angaben, und andererseits - zum Teil - mit zusätzlichen Informationen versehen. Diese zusätzlichen Informationen können beispielweise aussagen, dass es sich bei einem Wort um einen Personennamen handelt, oder dass ein Wort aus dem Englischen oder Lateinischen stammt.

3.4.2. Wie ist WiTTLex in Bezug auf Wittgensteins Nachlass zu vertehen?

WiTTLex ist keine Sammlung exakt der Wortformen, welche im Nachlass vorkommen. Das liegt daran, dass die Grundform eines Wortes im Lexikon enthalten ist, auch wenn sich im Nachlass nur eine bestimmte Form des Wortes befindet. (Beispiel: Würde “sagte” im Nachlass vorkommen, wäre “sagen” automatisch auch im Lexikon enthalten)

Auch ergänzt werden Personennamen, da Wittgenstein oft nur Nachnamen verwendet, in WiTTLex aber der vollständige Name mit allen Vornamen auftauchen soll. Zusätzlich werden Wörter in alter Schreibweise von ihrem Pendant in neuer Rechtschreibung komplettiert. Nicht allgemeingültige Abkürzungen, welche nur bei Wittgenstein vorkommen, werden im Lexikon ausformuliert. Das dient einerseits zum besseren Verständnis dieser Abkürzungen, als auch dazu, diese Textstellen für eine Suchmaschine findbar zu machen, wenn der Anwender nach dem vollständigen Wort sucht.

Abgesehen von diesen Ausnahmen ist das Lexikon komplett auf Wittgensteins Sprache zugeschnitten; es kommen keine Wörter vor, die er gar nicht verwendet. Daher bietet es sich durchaus als Hilfsmittel an, um beispielsweise Untersuchungen über Wittgensteins Sprachgebrauch zu machen.

3.4.3. Was ist das DELA Format?

WiTTLex ist nach dem Vorbild der DELA Syntax aufgebaut, welche unter anderem für Lexika genutzt wird, die mit Unitex verwendet werden. DELA steht für “Dictionnaires Electroniques du LADL” oder “LADL electronic dictionaries”. Diese Art der Lexika wurde von Maurice Gross für das Französische entwickelt. Es gibt vor allem zwei verschiedene Versionen des DELA Formates, einerseits das DELAS (DELA de formes simples) oder DELAC (DELA de formes composées). Diese Art des Lexikons enthält nur unflektierte Wortformen. Andererseits gibt es DELAF (DELA de formes Composées Fléchies), ein Lexikonformat für flektierte Wortformen. Das DELAF Format wird am häufigsten verwendet, da es sehr vielseitig ist.

Ein elektronisches Wörterbuch sollte sich maschinell verarbeiten lassen und Programme müssen sie automatisch verändern können. Diese Anforderungen sind beim DELA Format erfüllt, Spracheigenschaften (sowohl Vokabular, als auch Morphologie) können strukturiert dargestellt werden.

Bei WiTTLex werden nicht alle formalen Regeln eines DELAF Lexikons genau befolgt, sondern es ist für unsere Anforderungen angepasst. Beispielsweise sind semantische Informationen, wie der Zusatz “MUSIK” bei Musikbegriffen oder “PersName” bei Personen im ursprünglichen Format nicht vorgesehen.

3.4.4. Wie sind WiTTLex Einträge zu lesen?

Alle WiTTLex Einträge sind im DELA Format verfasst. Das bedeuted, sie sind alle nach dem gleichen Schema aufgebaut und unterscheiden sich nur wenig. Das Lexikon enthält jeweils einen Eintrag pro Zeile, welcher folgendermaßen aufgebaut ist:

Vollform,Lemma.Grammatikalische Informationen zum Lemma:Grammatikalische Informationen zur Wortform+Zusatzinformation

Die Vollform ist die flektierte Wortform des Eintrags, sie ist nicht optional und in jedem Eintrag vorhanden. Das Lemma ist die Grundform eines Wortes, sie wird von der flektierten Form durch ein Komma abgetrennt. Die Grammatischen Informationen folgen nach einem Punkt auf das Lemma, sie können verschiedener Art sein, und definieren beispielsweise Wortart und Genus.

An diesen Grundaufbau hält sich jeder Lexikoneintrag, mit leichten Variationen (manche Felder werden nicht immer gebraucht).

schöner,schön.ADJ

schön,.ADJ

Bei schön ist das Lemma identisch mit der flektierten Form, daher ist hier die Stelle des Lemmas leer. Ist ein Wort eindeutig, und kann nicht variiert werden, dann werden keine grammatikalischen Informationen zur Wortform eingetragen.

Gute Tabellen, welche die Codes für grammatikalische Informationen enthalten befinden sich in der Englischen Übersetzung des Unitex User Manual, im Original von Sebastien Paumier, 2003.http://www.cis.uni-muenchen.de/people/lg3/ManuelUnitex.pdf