Hauptseminar "Korpusbearbeitung" / Prof. F. Guenthner & Dr. P. Maier

Ziele der Veranstaltung

Das Ziel der Veranstaltung ist die theoretische und praktische Behandlung des Themas "Entitätenerkennung". Es werden die gängigen Verfahren zur Entitätenextraktion anhand von ausgewählter Literatur diskutiert und eigene Methoden zur Erkennung der verschiedenen Typen von Entitäten (Personen, Organisationen/Produktnamen, Lokationen, Temporalia und Ereignisse) entwickelt werden. Die Teilnehmer des Seminars werden in Arbeitsgruppen arbeiten, so dass jede Arbeitsgruppe sich mit den spezifischen Problemen eines Typs von Entitäten beschäftigt.

Formalitäten

Termine: Mi, Do 14-16, Raum 1.13

Die Mittwochssitzungen werden in erster Linie den theoretischen Teil abdecken, in den Donnerstagssitzungen sollen in erster Linie die Ergebnisse der Arbeitsgruppen diskutiert werden.

Sprechstunden:
Prof. Guenthner: Do 11-12, Raum B 105
Dr. Maier: Do 12-13, Raum B 108

Anforderungen:
Es wird erwartet, dass jeder Teilnehmer ein Referat übernimmt und in einer Arbeitsgruppe aktiv mitarbeitet. Aus dieser praktischen Arbeit wird sich dann auch das Thema für die Hausarbeit eregeben.

Teilnehmerliste

Themen

  1. Tools und Daten:
    In diesen beiden Sitzungen werden die verfügbaren Datenquellen und Programme zur Bearbeitung der Texte besprochen.
  2. News-Indexierung:
    Vergleich und Diskussion verschiedener im WWW verfügbarer News-Indexe:
  3. Personen, Organisationen, Lokationen:
    In diesen voraussichtlich 6 Sitzungen wird das Problem der Extraktion von Personen, Organisationen und Lokationen anhand von Referaten über einschlägige Literatur theoretisch besprochen. Parallel sollen die Teilnehmer Methoden zur Extraktion dieser Entitäten aus Texten entwickeln.
    Folgende Artikel werden Grundlage der Referate sein:
    1. Brin, S. (1998); Extracting Patterns and Relations from the World Wide Web
    2. Buchholz/ van den Bosch: Integrating Seed Names and Ngrams for a Named Entity List and Classifier
    3. Cucerzan/Yarowsky: Language Independent Named Entity Recognition Combining Morphological and Contextual Evidence
    4. Mikheev, A.; Moens, M.; Grover, C. (1999). Named Entity Recognition without Gazetteers
    5. McDonald: Internal and External Evidence in the Identification and Semantic Categorization of Proper Names
    6. Kim/Evens: Efficient Coreference Resolution for Proper Names in the Wall Street Journal Text
    7. Paik et al. Categorizing and Standardizing Proper Nouns for Efficient Information Retrieval
    8. Ravin/Wacholder: Extracting Names from Natural Language Text
    9. Stevenson/Gaizauskas: Using Corpus-derived Name Lists for Named Entity Recognotion
    10. Maurel D. (1994). Le traitment informatique de la dérivation des noms de ville
    11. Belleil, C.; Maurel, D. (1995). Un dictionnaire relationnel des nums propres lies a la geographie consulte par transducteurs
    12. Maurel, D.; Courtois, B. (1993). Vers la constitution d'un dictionnaire electronique des noms propres.
  4. Temporalia:
    Analyse und Besprechung der möglichen temporalen Entitäten und ihrer Beziehung zu den anderen Typen
  5. Ereignisse und Thesauri:
    Inwiefern können Ereignisse erkannt und extrahiert werden? Wie können Ereignisse mit Thesauruseinträgen verknüpft werden?

Termine

Resourcen

Literatur


Petra Maier
Last modified: Wed Jun 5 12:24:33 MEST 2002