Aufgabe 3

Nachdem wir die OCR-Tools bei Herrn Landes gelernt haben, können wir die Texte weiterverarbeiten. Verwenden Sie jetzt unsere Oksana-Doku zu Unitex: (hier klicken)
  1. Holen Sie sich den Text File der Reiseberichte von Versaille: (hier klicken) und öffnen Sie ihn in UNITEX.
  2. Wie viele unbekannte Wörter gibt es?
  3. Laden Sie das Historische Lexikon (hier klicken) und wenden sie es für den Briefwechsel an.
  4. Wie viele unbekannte Wörter gibt nun es?
  5. Suchen Sie Ortsnamen (sie sind großgeschriebene Wörter:
    also: Suchen Sie alle großgeschriebenen Wörter mit Regulären Ausdrücken (siehe in der Oksana-Doku, Teil 3, Seite 23
  6. Erstellen Sie ein eigenes DELA-Lexikon und fügen Sie 10 unbekannte Ortsnamen hinzu. Vergeben Sie im DELA-Lexikon den Ortsnamen den Semntischen Tag "ORT"
  7. Wenden Sie nun ihr neues Lexikon (Apply-Lexical-Ressource) an und erzeugen Sie eine Konkordanz mit alle ORTS Namen
  8. Im Text kommen sehr viele Stellen vor, an denen bestimmte Aufzählungen stehen: Entwickeln Sie einen Graphen, der Textstellen mit diesem Aufbau findet: 'Zahl gefolgt von einem großgeschriebenen Wort'
    Lassen Sie sich eine Konkordanz mit diesen Textstellen ausgeben.
    siehe Oksana-Doku, Teil 4