Aufgabe 3
Nachdem wir die OCR-Tools bei Herrn Landes gelernt haben, können wir die Texte weiterverarbeiten.
Verwenden Sie jetzt unsere Oksana-Doku zu Unitex:
(hier klicken)
- Holen Sie sich den Text File der Reiseberichte von Versaille: (hier klicken) und öffnen Sie ihn in UNITEX.
- Wie viele unbekannte Wörter gibt es?
- Laden Sie das Historische Lexikon (hier klicken) und wenden sie es für den Briefwechsel an.
- Wie viele unbekannte Wörter gibt nun es?
- Suchen Sie Ortsnamen (sie sind großgeschriebene Wörter:
also: Suchen Sie alle großgeschriebenen Wörter mit Regulären Ausdrücken (siehe in der Oksana-Doku, Teil 3, Seite 23
- Erstellen Sie ein eigenes DELA-Lexikon und fügen Sie 10 unbekannte Ortsnamen hinzu. Vergeben Sie
im DELA-Lexikon den Ortsnamen den
Semntischen Tag "ORT"
- Wenden Sie nun ihr neues Lexikon (Apply-Lexical-Ressource) an und erzeugen
Sie eine Konkordanz mit alle ORTS Namen
- Im Text kommen sehr viele Stellen vor, an denen bestimmte Aufzählungen
stehen:
- 2 Stock, 2 Höfe, 2 Säulen, 4 Stufen .... usw.
Entwickeln Sie einen Graphen, der Textstellen mit diesem Aufbau findet: 'Zahl gefolgt von einem großgeschriebenen Wort'
Lassen Sie sich eine Konkordanz mit diesen Textstellen ausgeben.
siehe Oksana-Doku, Teil 4