CIS
Centrum für Informations-
und Sprachverarbeitung

Aktuelles



Masterseminar Informationsverarbeitung I

Veranstalter: Dr. M. Hadersbeck

Masterseminar

Masterseminar : Do. 16:00 bis 18:00 Oettingenstr. 67, 067

Inhalt der Veranstaltung im WS 2020:
"Vom Nachlass zur FinderApp wiTTFind: Briefwechsel und Workshop DHD 2020 in Paderborn"

Seit 2010 kooperieren das Wittgenstein Archiv der Universität Bergen und das Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximilians Universität München in der Forschungsgruppe "Wittgenstein Advanced Search Group" (WAST). Die Forschungsgruppe entwickelt Web-Frontends (FinderApps) und spezielle Suchwerkzeuge, die sich sehr gut für die Forschung und Lehre im Bereich der Digital Humanity eignen. Ihre erste Suchmaschine, die FinderApp WiTTFind (wittfind.cis.lmu.de), die den von der UNESCO zum Weltkulturerbe (im Jahr 2017) erhobenen Nachlass von Ludwig Wittgenstein durchsucht, gewann im Jahre 2014 der EU-Open-Humanity Award. Der Preis zeichnet Gruppen aus, die herausragende Technologie im Bereich der Humanities entwickelt haben. Die in der Forschergruppe programmierte FinderApp WiTTFind erlaubt es, die Transkriptionen der Bergen Normalized Edition, Grundlage der Wittgenstein Edition, mit hochqualifizierten, computerlinguistisch orientierten Suchwerkzeugen zu durchsuchen. Neben den gefundenen Treffern der Suchmaschine werden auf der Trefferseite von WiTTFind die Faksimile-Extrakte aus den Originaldokumenten angezeigt. So kann der Nutzer die „Aura“ der gefundenen Textstelle im Original studieren und nicht nur den transkribierten Text sehen.
Siehe: WiTTFind (http://wittfind.cis.lmu.de)

Damit der Nutzer auch den seitenweisen Kontext des Suchtreffers im Original studieren kann, wurde am CIS eine weitere WEB-Applikation entwickelt, der doppelseitige Reader. Dieser Reader ermöglicht es, vom Suchtreffer direkt an die entsprechende Stelle im entsprechenden Dokument des Originals zu springen und in einem doppelseitigen Lesemodus in den Faksimile des originalen Dokuments zu blättern.

Eine symmetrische Autovervollständigung gibt während der Suchanfrage einen statistischen und lexikalischen Zugang zu den Wörtern, die in der Edition vorkommen. Im Zentrum der Suche steht die selbstprogrammierte C++ Suchmaschine wf, die mit Hilfe von Vollformlexika (WiTTlex), verbessertem POS-Tagging und weiteren Metainformationen regelbasiertes Suchen erlaubt.

Zum Aufspüren semantisch ähnlicher Textpassagen in der Edition gibt es das NLP-Tool WiTTSim. Die thematisch getrennten Aufgaben innerhalb der Infrastruktur der WAST-Tools (siehe Abb. 2) werden über REST-API’s von einzelnen Microservices realisiert, deren zentrale Datenhaltung über eine mongo Datenbank realisiert wird.

Die Oberflächen der FinderApps werden mit HTML5, Javascript und Bootstraptechniken für WEB-Browser programmiert und möglichst browserunabhängig gehalten.

Alle Programme, Schnittstellen und Entwicklungen werden dokumentiert und Tutorials für Anschlussprojekte entwickelt. So ist gewährleistet, dass die Tools und Suchmaschinen nachhaltig verwendet und auch für die Forschung und Lehre eingesetzt werden können. Als Versionskontrollsystem wird git verwendet.

Bei der Entwicklung der Infrastruktur der WAST-Tools wurden die strengen Vorgaben des EU-Open-Humanity Awards eingehalten: Forderungen nach Open-Source, interdisziplinäre Öffnung und Nachhaltigkeit. Diese Offenheit ermöglichte es weitere FinderApps für andere Wissenschaftsbereiche zu implementieren: GoetheFind (Faust-I und Faust-II Edition, Deutsches Textarchiv Berlin (XML-TEIP5, DTA Basis Format)), HistoFind (Briefwechsel Erzherzog Leopold Wilhelms an Kaiser Ferdinand III. aus dem Reichsarchiv Stockholm; Kooperation mit Historikern) und den OdysseeReader (Schreibprozess der zur Logisch-Philosophischen-Abhandlung führte; Kooperation mit Philosophen).

In diesem Masterseminar werden die eingesetzten Softwaretechnologien und computerlinguistischen Methoden im konkreten Einsatz vorgestellt.

  • Faksimile Scannen und OCR (Ermittlung von Koordinaten von Abschnitten im Faksimile)
  • Edition der Nachlass von L. Wittgenstein im Detail, Parsing mit Python
  • Editionen und XML: Einführung in XML, XSLT siehe: http://openbook.rheinwerk-verlag.de/kit/itkomp15001.htm#Rxx355kap15001040003D71F04B100
  • Tagging und Vollformen-Lexikon
  • Semantische Suche
  • Ähnlichkeitssuche
  • Odyssee-Reader für die Ausstellung: "100 Jahre Traktatus"
  • Client-Server Applikation (apache, HTML, CSS, bootstrap
  • WEB-Oberfläche (bootstrap)
Zwei Themen stehen in diesem Semester im Zentrum der Veranstaltung:
  • Briefwechsel von Ludwig Wittgenstein
  • Digital Humanity Konferenz in Paderborn, März 2020

Interessante Links

Diese Veranstaltung können auch geeignete Bachelorstudierende der Computerlinguisten mit dem Nebenfach Informatik belegen und im Nebenfach Informatik als "Fachvertiefende Veranstaltung" mit 6 ECTS einbringen.
Für diese Veranstaltung muss man sich nicht anmelden.

Voraussetzungen:

XML, Skriptsprachen WEB-Programmierung und Interesse an der digitalen Umsetzung von schriftlichen Kulturgütern.

Scheinkriterien

Masterschein mit 6 ECTS bei herausragender Programmierleistung in einer Gruppe oder Gruppenseminararbeit

Wiki zur Veranstaltung

Die Inhalte und Dokumentation der Arbeit in der Veranstaltung wird über das Lehre Wiki des CIS vermittelt.
Hier kommen Sie zum Wiki: (Zum anmelden, Sie können als Usernamen die drei Buchstaben unseres Institus verwenden, das Passwort orientiert sich an den drei Buchstaben unserer Universität, bzw. Sie erfahren es beim Dozenten)

Aufgaben:

Texte

Literaturliste

Support:

Hier eine Bachelorarbeit zu XML-TEI5 (hier klicken)
Zur Doku zu unserer FinderApp: Doku zu WiTTFind

Support (Passwortgeschützt):

Musterlösungen: