CIS
Centrum für Informations-
und Sprachverarbeitung

Aktuelles



Korpusbearbeitung in der Computerlinguistik

SS2018, Dr. M. Hadersbeck

Vorlesung (Modulteilprüfung)

Vorlesung :

Inhalt und Ziel der Veranstaltung
In der Vorlesung werden mit Hilfe von Programmen in einer Skriptsprache, speziellen Anwendungen und  Betriebssystemtools große Korpora erschlossen, verarbeitet und linguistisch annotiert. Es werden wichtige Aufgaben der Korpusbearbeitung, wie z.B. Textkonvertierungen, Tokenisierungen, Erstellen von Frequenzlisten, Konkordanzen, n-Gramm-Extraktion vorgestellt und Lösungen erarbeitet. Parallel dazu werden auch einige exemplarisch ausgewählte Korpora und Verfahren der Arbeit mit Korpora vorgestellt und damit gearbeitet.

Lernziele:

Die Studierenden sollen einen Überblick über existierende Korpora bekommen und in der Lage sein, konkrete Korporaarbeiten mit selbstgeschriebenen Programmen in einer Skriptsprache, speziellen Anwendungen bzw. geeigneten Betriebssystemtools ausführen zu können.


Die Klausur findet am 9.7. von 15:00 bis 16:00 in der Vorlesungsstunde statt

Die Klausur findet am 9.7. von 15:00 bis 16:00 in der Vorlesungsstunde statt

Die Klausur findet am 9.7. von 15:00 bis 16:00 in der Vorlesungsstunde statt

Themen:

siehe auf der Wiki Seite:

Hier gehts zum WiKi des Kurses (hier klicken)

Hier gibt es Musterlösungen von Frau Budorova! (hier klicken)

Voraussetzungen:
Programmierkenntnisse in Python/PERL

Scheinkriterien

Bestehen der Modulteilprüfung

Übungen (freiwillig):

Übungsabgabe

Die Arbeit, die sie hier machen ist ein Beitrag zur "open-Source-community" und für die "Computerwelt" ein öffentliches Gut.
Mit ihrer Mitarbeit zeigen Sie ihre kollegiale, engagierte Einstellung und vielleicht sind Sie es sogar, die in einer späteren Bachelorarbeit oder Masterarbeit mit genau diesen Daten arbeitet.
Am Dienstag, den 17.4. gibt werde ich zusammen mit Herrn Landes im Rechnerraum Kalahari von 15:45 bis 16:00 eine Einführung in die Handhabung mit der Koordinatenkorrektur anbieten. Bitte tragen Sie ihren Namen in die Teilnehmerliste auf der WIKI Seite ein. Mit einem Doppelklick auf die Seite öffnet sich ein WIKI-Texteditor, den sie bitte mit der Option "sichern" wieder schliessen.
Hier die WIKI-Adresse (mit Username und Passwort)
http://www.cis.uni-muenchen.de/lehre/SommerSemester2018/Semiautomatisch_OCR_18 (Username: CIS, Passwort: lmu).
1. Aufgabe:    (Abgabe bis zum 16.4.) finden Sie (hier klicken)
2. Aufgabe:    (Abgabe bis 23.4.) finden Sie (hier klicken)
3. Aufgabe:    (Abgabe bis 30.4.) finden Sie (hier klicken)
4. Aufgabe:    (Abgabe: 7.5. 14:00) finden Sie (hier klicken)
5. Aufgabe:    (Abgabe: 14.5. 14:00) finden Sie (hier klicken)
6. Aufgabe:    (Abgabe: 28.5. 14:00) finden Sie (hier klicken)
Wiederholen Sie bis zum 4.6. als Test die Aufgabe 6, denn da steckt alles drin, was Sie bisher gelernt haben
7. Aufgabe:    (Abgabe: 11.6. 14:00) finden Sie (hier klicken)
8. Aufgabe:    (Abgabe: 18.6. 14:00) finden Sie (hier klicken)
9. Aufgabe:    (Abgabe: 2.7. 14:00) finden Sie (hier klicken)
10. Aufgabe:    (Abgabe: xxx.7. 14:00) finden Sie (hier klicken)

Die Klausur findet am 9.7. von 15:00 bis 16:00 in der Vorlesungsstunde statt

das kommt in der Klausur dran (hier klicken)