Maschinelle Übersetzung
              
Seminar WS 2012/13

Prof. Martin Hofmann, Informatik, Dr. Hans Leiß, Computerlinguistik

Zeit und Raum:
Mi, 14-16 Uhr, Oettingenstr.67, Raum 115     Beginn: Mi, 17.10.2012
Inhalt und Ziel der Veranstaltung
Der Traum von der automatischen Übersetzung von einer Sprache in eine andere ist so alt wie die Informatik; doch erst seit kurzem ist sie in den Bereich des Möglichen gerückt, zumindest, was die rohe Übersetzung von Anleitungen, WWW-Masken, etc. betrifft.
Es gibt im wesentlichen zwei konkurrierende Ansätze: 1) die statistische Übersetzung, bei der anhand von großen ,,parallelen'' Beispieltexten ein statistisches Sprachmodell entwickelt und geeicht wird, aber nicht wirklich Texte ,,verstanden'' werden. 2) die regelbasierte Übersetzung, bei der versucht wird, anhand syntaktischer und semantischer Regeln die Struktur und die Bedeutung eines Satzes zu erfassen und dann in einer anderen Sprache wiederzugeben.
Aufgrund der massiv gestiegenen Verfügbarkeit und Verarbeitbarkeit von Daten hat der statistische Ansatz in den letzten Jahren spektakuläre Erfolge erzielt und sozusagen Oberwasser; es ist aber wahrscheinlich, daß weitere Fortschritte einer Synthese beider Ansätze bedürfen.
Im Seminar wollen wir die Grundlagen der maschinellen Übersetzung kennenlernen, wobei wir den statistischen Ansatz anhand eines kürzlich erschienenen Lehrbuchs [] erarbeiten und für den regelbasierten Ansatz das Grammatical Framework [] anhand eines Tutorials heranziehen. Durch Systempräsentationen wird das Programm abgerundet.
Voraussetzungen: Vordiplom bzw. Zwischenprüfung im Magisterstudiengang.
Scheinkriterium: Seminarvortrag mit Ausarbeitung
Terminplan:
Datum Vortragende(r) Thema
17.10. Vorbesprechung, Themenvergabe
24.10. Hr. Hessenberger 1. Überblick über die statistische Übersetzung
Yulia Hofer 2. Linguistische Begriffe, Wortverteilung, Parallelkorpra
31.10. Charlotte Mach 3. Wortbasiertes generatives Übersetzungsmodell (IBM-Modell 1)
07.11. Fabian Nußberger 4. Wortbasiertes generatives Übersetzungsmodell (IBM-Modell 1)
14.11. Carina Saliger5. Kontextberücksichtigung: Noisy-Channel-Modell
21.11. Alexander Klimczak 6. IBM-Modelle 3-5
28.11. Ida Buchwald 7. Phrasenbasierte statistische Übersetzung
05.12. Verena Lindner 8. Dekodierung
Felicia Oberarzbacher 9. Sprachmodelle
12.12. Herbert Lange 10. Systemdemonstrationen (Giza++, Moses)
12./19. Aziza Salohiddinova 11. Evaluation statistischer Übersetzungswerkzeuge
19.12. Alena Mikhaylova 12. Satzalinierung in Parallelkorpora
Alioune Sow 20. Kritik der statistischen Übersetzung
09.01. Patricia Mitterer 13. Rosetta: Reversible Grammatiken und kompositionale Übersetzung
Sophia Stotz 14. Rosetta: Übersetzungsprobleme bei Temporalausdrücken
16.01. Max Liebig 15. Rosetta: Probleme bei Idiomen, Skopusfragen und Negation
23.01. John-Louis Gao 16. Grammatical Framework (Bezug zum funktionalen Programmieren)
30.01. Thomas Gabor 17. Baumübersetzer in der maschinellen Übersetzung
06.02. Claudia Müller 18. Überblick über ,,Example based machine translation''
Paul Schmitt 19. Lernen von Übersetzungsmustern und -Grammatiken
Nützliche Links:
  1. Zum DARPA-Report von Peirce siehe:
    http://elanguage.net/journals/lilt/article/view/2581
  2. Errata-Seite zum Buch von Koehn: http://www.statmt.org/book/errata.html
    Ebook des Buchs:
  3. Muster für LaTeX/beamer-Folien folien-muster.tex (mit beamer-Stil).
  4. Nachlesen zu IBM-Modell 1+2: www.cs.columbia.edu/~mcollins/courses/nlp2011/notes/ibm12.pdf
CIS-Wiki-Seite des Seminars http://www.cis.uni-muenchen.de/lehre/WinterSemester2012/MT/ Hier sollten Sie Ihre Folien und Ausarbeitungen einstellen, damit andere Teilnehmer das Material lesen und nacharbeiten können.
Benutzername und Paßwort des WIKIs werden im Seminar (bzw. per Email, soweit die Adressen vorliegen) bekanntgegeben.
Abgabetermine: (für die Beurteilung gilt die Version im uniworx)
  1. Vortragsfolien: am Tag des Vortrags ins uniworx und ins CIS-Wiki stellen
  2. Ausarbeitungen: für die, die vor Weihnachten vortragen: bis 9.1.2013, für die anderen: bis 18.2.2013, ins uniworx und ins CIS-Wiki stellen
  3. Review: bis 16.1. bzw. 25.2.; wer welche Ausarbeitung kommentiert, wurde am 9.1. bis auf die letzten 5 Vorträge im Seminar besprochen und steht in der Tabelle im CIS-Wiki. Der Kommentar sollte 1/2 bis 1 Seite lang sein.
  4. Endversion: So, 10.3.2013 (für alle)
Ausarbeitung im Master Computerlinguistik: Nach Studienplan ca 25.000 Zeichen Hausarbeit und ca. 8.000 Zeichen Thesenpapier (=Folien) (6 ECTS)
Sie können in der Version im CIS-Wiki nachträglich z.B. fehlerhafte Formeln korrigieren, aber es wird keine intensive Überarbeitung erwartet.

References

[]
Michael Carl and Andy Way, editors. Recent Advances in Example-Based Machine Translation. Kluwer, 2003.
[]
Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2010.
[]
Aarne Ranta. Grammatical Framework. Programming with Multilingual Grammars. CSLI Publications, Stanford, 2011.
[]
M. T. Rosetta. Compositional Translation. Kluwer, 1994.
Eine Kopiervorlage von Koehn, Kapitel 1-8, kann man bei Frau Roden, Sekretariat L 1.05, Mo-Do 8-12 Uhr, ausleihen. Die anderen Aufsätze bei H.Leiß, C 110, Di 13-15 Uhr.


File translated from TEX by TTH, version 3.67.
On 30 Jan 2013, 13:35.