Korpusbearbeitung in der Computerlinguistik
SS2019, Dr. M. Hadersbeck
Vorlesung (Modulteilprüfung)
Vorlesung :
Inhalt und Ziel der Veranstaltung
In der Vorlesung werden mit Hilfe von UNIX-Tools und Programmen in einer Skriptsprache, speziellen Anwendungen und Betriebssystemtools große Korpora erschlossen, verarbeitet und linguistisch annotiert. Es werden wichtige Aufgaben der Korpusbearbeitung, wie z.B. Textkonvertierungen, Tokenisierungen, Erstellen von Frequenzlisten, Konkordanzen, n-Gramm-Extraktion vorgestellt und Lösungen erarbeitet. Parallel dazu werden auch einige exemplarisch ausgewählte Korpora und Verfahren der Arbeit mit Korpora vorgestellt und damit gearbeitet.
Lernziele:
Die Studierenden werden in der Lage sein, konkrete Korporaarbeiten mit selbstgeschriebenen Programmen in einer Skriptsprache, speziellen Anwendungen bzw. geeigneten Betriebssystemtools ausführen zu können.
Themen:
siehe auf der Wiki Seite:
Hier gehts zum WiKi des Kurses (hier klicken)
Voraussetzungen:
Programmierkenntnisse in Python/PERL
Scheinkriterien
Bestehen der Modulteilprüfung
Ergebnisse der Klausur: SS2019
109+8050 1,0
115+7723 1,0
118+4493 1,0
118+0931 1,3
117+1839 1,7
113+0099 1,7
119+7894 2,0
115+3554 2,0
115+0875 2,0
111+4526 2,0
113+7566 2,0
115+5882 2,0
117+0185 2,3
113+9608 2,3
117+1550 2,3
107+4164 2,7
117+3141 2,7
113+9519 3,0
117+6580 3,0
111+5832 3,0
115+3710 3,0
107+8132 3,3
100+6053 3,3
405+072 3,3
665+6135 3,7
115+7081 4,0
117+3556 4,0
112+0795 4,0
118+0824 4,0
115+3626 4,0
117+7578 4,0
Helfen Sie mit bei der OCR-Korrektur für das Wittgensteinprojekt
Das Semester ist zu Ende und was sie hier machen ist ein Beitrag zur "open-Source-community" und für die "Computerwelt" ein öffentliches Gut.
Mit ihrer Mitarbeit zeigen Sie ihre kollegiale, engagierte Einstellung und vielleicht sind Sie es sogar, die in einer späteren Bachelorarbeit oder Masterarbeit mit genau diesen Daten arbeitet.
Am Dienstag, den 17.4. gibt werde ich zusammen mit Herrn Landes im Rechnerraum Kalahari von 15:45 bis 16:00 eine Einführung in die Handhabung mit der Koordinatenkorrektur anbieten.
Bitte tragen Sie ihren Namen in die Teilnehmerliste auf der WIKI Seite ein. Mit einem Doppelklick auf die Seite öffnet sich ein WIKI-Texteditor, den sie bitte mit der Option "sichern" wieder schliessen.
Hier die WIKI-Adresse (mit Username und Passwort)
http://www.cis.uni-muenchen.de/lehre/SommerSemester2018/Semiautomatisch_OCR_18 (Username: CIS, Passwort: lmu).
Einsichtnahme: 5.8.19 13.00-13.30 Uhr, C108 (erst nach der Einsichtnahme werden die Ergebnisse in LSF
Übungen (freiwillig):
Übungsabgabe
<
Jobs
Sie
(hier klicken)
0. Aufgabe: (zum Einstieg in die UNIX-Tools eine Denksportaufgabe:
Sie
(hier klicken)
1. Aufgabe: Besprechung am 6.5.
Sie
(hier klicken)
2. Aufgabe: Besprechung am 13.5.
Sie
(hier klicken)
Wie in der Vorlesung gesagt würde ich Sie um die Mithilfe bei unserer "Forschungs-Gemein-Wohl" Arbeit, der Nachkorrektur im Weltkulturerbe Wittgenstein bitten.
Wir haben schon wieder 7000 Seiten korrigiert und unsere OCR-Tools sind mittlerweile in der 3. Generation (Eine Bachelorarbeit verbessert sie weiter)
Hier gibt es Informationen zur Mithilfe bei der OCR Korrektur:
(hier klicken)
Hier können Sie sich mit ihrer
LMU-CAMPUS email-adresse registrieren:
(hier registrieren)
Hier gehts zum Korrektor und Sie können loslegen (auch mit ihrem alten Account, wenn Sie den noch wissen)
(-hier zum Korrektor-)
3. Aufgabe: (Abgabe bis 6.6) finden
Sie
(hier klicken)
4. Aufgabe: (Abgabe: 17.6 14:00) finden
Sie
(hier klicken)
5. Aufgabe: (Abgabe: 24.6. 14:00) finden
Sie
(hier klicken)
Blockseminar mit den Philosphen am CIS vom 5-7.7.2019:
Wie ich in der Vorlesung angekündigt haben, wird ein Interdisziplinäres Blockseminar mit den Philosophen
von der LMU und aus Wien zwischen dem 5.-7.7.2019 im CIS stattfinden. Dazu seid ihr alle herzlich eingeladen.
Hier finden Sie das vorläufige Programm: (hier klicken)
6. Aufgabe: (Abgabe: 1.7. 14:00) finden
Sie
(hier klicken)
Wiederholen Sie bis zum 1.7. als Test die Aufgabe 6, denn da steckt alles drin, was Sie bisher gelernt haben
7. Aufgabe: (Abgabe: 15.7. 14:00) finden
Sie
(hier klicken)
Die Klausur findet am 22.7. von 14:00 bis 15:00 in der Vorlesungsstunde statt.
(falsch ist 16-17 Uhr)
Das kommt in der Klausur dran (hier klicken)
Zum Üben, die Klausur von 2016 [Achtung: In diesem Jahr keine Fragen zu UNITEX, dafür mehr UNIX und XML (!)] (hier klicken)
Lösungen
Vorlesungsbeispiele