Statistische Methoden in der Sprachverarbeitung
Wintersemester 2023/24
Dozent: Helmut Schmid



  Termine
    VorlesungMontag12:00 - 14:00 Uhr c.t. Hörsaal BU101
    ÜbungenMontag14:00 - 16:00 Uhr c.t. Raum U151
    RepetitoriumDienstag12:00 - 14:00 Uhr c.t. Raum C003 ab der 2. Vorlesungswoche
    TutoriumMontag19:00 - 21:00 Uhr c.t.per Zoom ab der 2. Vorlesungswoche


  Inhalt der Vorlesung

    Das Seminar bietet eine Einführung in wichtige Methoden und Modelle der statistischen maschinellen Sprachverarbeitung und ihre Anwendungen.
    Behandelt werden die Themen:
    • statistische Tests und Kollokationsextraktion
    • Markowmodelle und Sprachidentifizierer
    • Naive Bayes und Wortbedeutungsdesambiguierung
    • Hidden-Markow-Modelle und Wortartannotierung
    • Probabilistische kontextfreie Grammatiken und Parsebaum-Desambiguierung
    • Perzeptron-Algorithmus
    • Conditional Random Fields

  Übungsaufgaben

    Alle Übungsaufgaben unten in der Tabelle mit einem Abgabetermin umfassen eine Programmieraufgabe, die Sie mit Hilfe von Gitlab bearbeiten und abgeben. Um die Aufgaben bearbeiten zu können, müssen Sie sich erst bei Gitlab anmelden. Auf der Moodle-Seite können Sie Fragen zu den einzelnen Programmieraufgaben stellen. Ich werde versuchen, Ihnen sobald wie möglich zu antworten.

    Sie können die Aufgaben in Gruppen von bis zu 3 Personen bearbeiten und gemeinsam abgeben. Die Programmieraufgaben werden automatisiert bewertet. Die Note des Übungsteils des Kurses richtet sich nach der erreichten Punktezahl. Weitere Details erfahren Sie in der Vorlesung.

    ÜbungBeschreibungBesprechung Abgabe
    Übung 1Grundlagen23. 10. 2023
    Übung 2Entropie30. 10. 2023 5. 11. 2023
    Übung 3Log Likelihood Ratio6. 11. 202312. 11. 2023
    Übung 4Sprachidentifizierung13. 11. 2023 19. 11. 2023
    Übung 5Wortbedeutungsdesambiguierung20. 11. 202326. 11. 2023
    Übung 6Hidden Markov-Modelle27. 11. 2023
    Übung 7Wortart-Tagger (Training)4. 12. 2023 10. 12. 2023
    Übung 8Wortart-Tagger (Anwendung)11. 12. 2023 17. 12. 2023
    Übung 9Left-Corner-Parser18. 12. 2023
    Übung 10Statistischer Parser8. 1. 202414. 1. 2024
    Übung 11Perzeptron-Tagger15. 1. 202421. 1. 2024
    ÜbungsklausurÜbungsklausur zur Vorlesung22. 1. 2024

  Begleitmaterial zur Vorlesung
  Weiterführende Literatur
  • Chris Manning und Hinrich Schütze: Foundations of Statistical Natural Language Processing, MIT Press
  • Daniel Jurafsky and James Martin: Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice Hall

  Prüfungstermine
    Vorlesung:  5. Februar 2024, 12 Uhr c.t., im Hörsaal BU101
    Übung:ersetzt durch laufende Programmieraufgaben

    Die Vorlesungsklausur wird eine mehrteilige Aufgabe mit 10 von 30 Punkten umfassen, die sich an diesem Beispiel orientiert.

    Wiederholungstermine

    Vorlesung:  Mittwoch, 6. März 2024, 10 Uhr c.t., im Hörsaal BU101

Centrum für Informations- und Sprachverarbeitung (CIS)