Masterseminar
Masterseminar : Do. 16:00 bis 18:00 Oettingenstr. 67, 067
Seit 2010 kooperieren das Wittgenstein Archiv der Universität Bergen und das Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximilians
Universität München in der Forschungsgruppe "Wittgenstein Advanced Search Group" (WAST). Die Forschungsgruppe
entwickelt Web-Frontends (FinderApps) und spezielle Suchwerkzeuge, die sich sehr gut für die Forschung und Lehre
im Bereich der Digital Humanity eignen. Ihre erste Suchmaschine, die FinderApp WiTTFind (wittfind.cis.lmu.de),
die den von der UNESCO zum Weltkulturerbe (im Jahr 2017) erhobenen Nachlass von Ludwig Wittgenstein durchsucht,
gewann im Jahre 2014 der EU-Open-Humanity Award. Der Preis zeichnet Gruppen aus, die herausragende Technologie im Bereich der
Humanities entwickelt haben. Die in der Forschergruppe programmierte FinderApp WiTTFind erlaubt es, die Transkriptionen der Bergen
Normalized Edition, Grundlage der Wittgenstein Edition, mit hochqualifizierten, computerlinguistisch orientierten Suchwerkzeugen zu
durchsuchen. Neben den gefundenen Treffern der Suchmaschine werden auf der Trefferseite von WiTTFind die Faksimile-Extrakte aus den
Originaldokumenten angezeigt. So kann der Nutzer die „Aura“ der gefundenen Textstelle im Original studieren und nicht nur den transkribierten Text sehen.
Siehe: WiTTFind (http://wittfind.cis.lmu.de)
Damit der Nutzer auch den seitenweisen Kontext des Suchtreffers im Original studieren kann, wurde am CIS eine weitere WEB-Applikation entwickelt, der doppelseitige Reader. Dieser Reader ermöglicht es, vom Suchtreffer direkt an die entsprechende Stelle im entsprechenden Dokument des Originals zu springen und in einem doppelseitigen Lesemodus in den Faksimile des originalen Dokuments zu blättern.
Eine symmetrische Autovervollständigung gibt während der Suchanfrage einen statistischen und lexikalischen Zugang zu den Wörtern, die in der Edition vorkommen. Im Zentrum der Suche steht die selbstprogrammierte C++ Suchmaschine wf, die mit Hilfe von Vollformlexika (WiTTlex), verbessertem POS-Tagging und weiteren Metainformationen regelbasiertes Suchen erlaubt.
Zum Aufspüren semantisch ähnlicher Textpassagen in der Edition gibt es das NLP-Tool WiTTSim. Die thematisch getrennten Aufgaben innerhalb der Infrastruktur der WAST-Tools (siehe Abb. 2) werden über REST-API’s von einzelnen Microservices realisiert, deren zentrale Datenhaltung über eine mongo Datenbank realisiert wird.
Die Oberflächen der FinderApps werden mit HTML5, Javascript und Bootstraptechniken für WEB-Browser programmiert und möglichst browserunabhängig gehalten.
Alle Programme, Schnittstellen und Entwicklungen werden dokumentiert und Tutorials für Anschlussprojekte entwickelt. So ist gewährleistet, dass die Tools und Suchmaschinen nachhaltig verwendet und auch für die Forschung und Lehre eingesetzt werden können. Als Versionskontrollsystem wird git verwendet.
Bei der Entwicklung der Infrastruktur der WAST-Tools wurden die strengen Vorgaben des EU-Open-Humanity Awards eingehalten: Forderungen nach Open-Source, interdisziplinäre Öffnung und Nachhaltigkeit. Diese Offenheit ermöglichte es weitere FinderApps für andere Wissenschaftsbereiche zu implementieren: GoetheFind (Faust-I und Faust-II Edition, Deutsches Textarchiv Berlin (XML-TEIP5, DTA Basis Format)), HistoFind (Briefwechsel Erzherzog Leopold Wilhelms an Kaiser Ferdinand III. aus dem Reichsarchiv Stockholm; Kooperation mit Historikern) und den OdysseeReader (Schreibprozess der zur Logisch-Philosophischen-Abhandlung führte; Kooperation mit Philosophen).
In diesem Masterseminar werden die eingesetzten Softwaretechnologien und computerlinguistischen Methoden im konkreten Einsatz vorgestellt.
Voraussetzungen:
XML, Skriptsprachen WEB-Programmierung und Interesse an der digitalen
Umsetzung von schriftlichen Kulturgütern.
Scheinkriterien
Masterschein mit 6 ECTS bei herausragender Programmierleistung in einer Gruppe oder Gruppenseminararbeit
Support:
Hier eine Bachelorarbeit zu XML-TEI5 (hier klicken)
Zur Doku zu unserer FinderApp: Doku zu WiTTFind