Hauptseminar "Korpusbearbeitung" / Prof. F. Guenthner & Dr. P. Maier
Ziele der Veranstaltung
Das Ziel der Veranstaltung ist die theoretische und praktische Behandlung des Themas "Entitätenerkennung". Es werden die gängigen Verfahren zur Entitätenextraktion anhand von ausgewählter Literatur diskutiert und eigene Methoden zur Erkennung der verschiedenen Typen von Entitäten (Personen, Organisationen/Produktnamen, Lokationen, Temporalia und Ereignisse) entwickelt werden. Die Teilnehmer des Seminars werden in Arbeitsgruppen arbeiten, so dass jede Arbeitsgruppe sich mit den spezifischen Problemen eines Typs von Entitäten beschäftigt.
Formalitäten
Termine: Mi, Do 14-16, Raum 1.13
Die Mittwochssitzungen werden in erster Linie den theoretischen Teil abdecken, in den Donnerstagssitzungen sollen in erster Linie die Ergebnisse der Arbeitsgruppen diskutiert werden.
Sprechstunden:
Prof. Guenthner: Do 11-12, Raum B 105
Dr. Maier: Do 12-13, Raum B 108
Anforderungen:
Es wird erwartet, dass jeder Teilnehmer ein Referat übernimmt und in einer Arbeitsgruppe aktiv mitarbeitet. Aus dieser praktischen Arbeit wird sich dann auch das Thema für die Hausarbeit eregeben.
Teilnehmerliste
Themen
- Tools und Daten:
In diesen beiden Sitzungen werden die verfügbaren Datenquellen und Programme zur Bearbeitung der Texte besprochen.
- News-Indexierung:
Vergleich und Diskussion verschiedener im WWW verfügbarer News-Indexe:
- Personen, Organisationen, Lokationen:
In diesen voraussichtlich 6 Sitzungen wird das Problem der Extraktion von Personen, Organisationen und Lokationen anhand von Referaten über einschlägige Literatur theoretisch besprochen. Parallel sollen die Teilnehmer Methoden zur Extraktion dieser Entitäten aus Texten entwickeln.
Folgende Artikel werden Grundlage der Referate sein:
- Brin, S. (1998); Extracting Patterns and Relations from the World Wide Web
- Buchholz/ van den Bosch: Integrating Seed Names and Ngrams for a Named Entity List and Classifier
- Cucerzan/Yarowsky: Language Independent Named Entity Recognition Combining Morphological and Contextual Evidence
- Mikheev, A.; Moens, M.; Grover, C. (1999). Named Entity Recognition without Gazetteers
- McDonald: Internal and External Evidence in the Identification and Semantic Categorization of Proper Names
- Kim/Evens: Efficient Coreference Resolution for Proper Names in the Wall Street Journal Text
- Paik et al. Categorizing and Standardizing Proper Nouns for Efficient Information Retrieval
- Ravin/Wacholder: Extracting Names from Natural Language Text
- Stevenson/Gaizauskas: Using Corpus-derived Name Lists for Named Entity Recognotion
- Maurel D. (1994). Le traitment informatique de la dérivation des noms de ville
- Belleil, C.; Maurel, D. (1995). Un dictionnaire relationnel des nums propres lies a la geographie consulte par transducteurs
- Maurel, D.; Courtois, B. (1993). Vers la constitution d'un dictionnaire electronique des noms propres.
- Temporalia:
Analyse und Besprechung der möglichen temporalen Entitäten und ihrer Beziehung zu den anderen Typen
- Ereignisse und Thesauri:
Inwiefern können Ereignisse erkannt und extrahiert werden? Wie können Ereignisse mit Thesauruseinträgen verknüpft werden?
Termine
- 17.4./18.4. Vorbesprechung und Demos
- 24.4./25.4. Tools und Daten: Tagger, Parser, TransMatch, Reutersdaten
- 1.5./2.5. Gruppenarbeit
- 8.5./9.5. News-Indexierung 1
- 15.5./16.5. News-Indexierung 2
- 22.5./23.5. Personen 1
- 28.5./29.5. Personen 2
- 5.6./6.6. Organisationen 1
- 12.6./13.6. Organisationen 2
- 19.6./20.6. Lokationen 1
- 26.6.27.6. Lokationen 2
- 3.7./4.7. Temporalia 1
- 10.7./11.7. Temporalia 2
- 17.7./18.7. Ereignisse und Thesauri
Resourcen
Literatur
-
Altman E.B. (1967). On the Recognition of Personal Names in Natural Text
-
Belleil, C.; Maurel, D. (1995). Un dictionnaire relationnel des nums propres lies a la geographie consulte par transducteurs
http://www.erudit.org/savant/meta/v42n02/belleil.pdf
-
Bikel, D.M.; Schwartz, R.; Weischedel, R.M. (1999). An Algorithm that Learns What's in a Name
http://www.cis.upenn.edu/~dbikel/algthatlearns.doc.pdf
-
Black, W.J.; Rinaldi, F.; Mowatt, D. (1998). Facile: Description of the NE System Used For MUC-7
http://citeseer.nj.nec.com/black98facile.html
-
Borthwick, A.; Sterling, J.; Agichtein, E; Grishman, R. (1998). NYU: Description of the MENE Named Entity System as Used in MUC-7
http://citeseer.nj.nec.com/borthwick98nyu.html
-
Brin, S. (1998); Extracting Patterns and Relations from the World Wide Web.
http://citeseer.nj.nec.com/brin98extracting.html
-
Buchholz, S; van den Bosch, A. (2000). Integrating seed names and ngrams for a named entity list and classifier
http://citeseer.nj.nec.com/312350.html
-
Coates-Stephens, S. (1991). Automatic Lexical Acquisition Using Within-Text Descriptions of Proper Nouns. In Proceedings of the Seventh Annual Conference of the UW Centre for the New OED and Text Research, pages 154-169, 1991
(im EN Ordner)
-
Collins, M.; Singer, Y. (1999). Unsupervised Models for Named Entity Classification
http://citeseer.nj.nec.com/collins99unsupervised.html
-
Cucerzan, S.; Yarowsky, D. (1999). Language Independent Named Entity Recognition Combining Morphological and Contextual Evidence
http://citeseer.nj.nec.com/cucerzan99language.html
-
Dalianis, H.; Aström, E. (2001). SweNam - A Swedish Named Entity recognizer Its construction, training and evaluation
http://citeseer.nj.nec.com/487788.html
-
Davidson L. (1996). Retrieval of Misspelled Names in an Airlines Passenger Record System. CACM 5, 3 (March 1962) 169-171.
(im EN Ordner)
-
Eichler, E.; Gilty, G.; Löffler, H.; Steger, H.; Zgusta, L. (1995). Namenforschung/Name Studies/Les noms propres
(im EN Ordner)
-
Eisenberg, P. (1981). Substantiv oder Eigenname? Über die Prinzipien unserer Regeln zur Groß- und Kleinschreibung
In: Linguistische Berichte 71 (1981), pp.77-101
(im EN Ordner)
-
Farmakiotou, D.; Karkaletsis, V.; Koutsias, J.; Sigletos, G.; Spyropoulos, C.D.; Stamatopoulos, P. (2000). Rule-Based Named Entity Recognition for Greek Financial Texts
http://citeseer.nj.nec.com/387702.html
-
Fung, P. (1995). A Pattern Matching Method for Finding Noun and Proper Noun Translations from Noisy Parallel Corpora
In: Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Boston, MA.
http://citeseer.nj.nec.com/45735.html
-
Grass T. (2000). Typologie et traductibilité des noms propres de l'allemand vers le francais à partir d'un corpus journalistique
In: Guenthner, F.; Maurel, D. (2000). Traitement automatique des noms propres; numéro spécial de Traitment automatique des langues, 2000, volume 41.
(im EN Ordner)
-
Hobbs, J.R.; Appelt, D.; Bear, J.; Israel, D.; Kameyama, M.; Stickel, M. (1996). FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text
http://citeseer.nj.nec.com/hobbs96fastus.html
-
Karkaletsis, V.; Spyropoulos, C. D.; Petasis, G. (1998). Named Entity Recognition from Greek Texts: the GIE Project
http://citeseer.nj.nec.com/karkaletsis98named.html
-
Krupke, G.R.; Hausman, K. (1998). IsoQuest, Inc.: Description of the NetOwl Extractor System as Used for MUC-7
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7_proceedings/isoquest.pdf
-
Lin, D. (1998). Using Collocation Statistics in Information Extraction
http://citeseer.nj.nec.com/lin98using.html
-
Maurel, D.; Courtois, B. (1993). Vers la constitution d'un dictionnaire electronique des noms propres. In Actes du 11eme Colloque europeen sur la grammaire et le lexique compares des langues romanes. Universite Marne-La-Vallee, France. (im Named Entities Ordner)
(im EN Ordner)
-
Maurel D. (1994). Le traitment informatique de la dérivation des noms de ville
In: Traitement automatique des langues, Volume 35, 1994; Numéro 2; Morphologie Computationnelle
(im EN Ordner)
-
McDonald, D. (1996). Internal and External Evidence in the Identification and Semantic Categorization of Proper Names. In B. Boguraev and J. Pustejovsky, editors, Corpus processing for lexical acquisition, pp. 21-39.
(im EN Ordner)
-
Mikheev, A.; Grover, C.; Moens, M. (1998). Description of the LTG System Used for MUC-7
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7_proceedings/ltg_muc7.pdf
-
Mikheev, A.; Moens, M.; Grover, C. (1999). Named Entity Recognition without Gazetteers
http://citeseer.nj.nec.com/mikheev99named.html
-
Miller, S.; Crystal, M.; Fox, H.; Ramshaw, L.; Schwartz, R.; Stone, R.; Weischedel, R.; Annotation Group. (1999). Algorithms that Learn to Extract Information - BNN: Description of the SIFT System as used for MUC-7
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7_proceedings/bbn_muc7.pdf
-
Paik, W.; Liddy, E.D.; Yu, E.; McKenna, M. (1993). Categorizing and Standardizing Proper Nouns for Efficient Information Retrieval. In Proceedings of the ACL Workshop on Acquisition of Lexical Knowledge from Text. Columbus, OH.
(im EN Ordner)
-
Pfeifer, U.; Poersch, T.; Fuhr, N. (1994). Searching Proper Names in Databases
http://citeseer.nj.nec.com/29327.html
-
Piskorski, J.; Neumann, G. (1999). An Intelligent Text Extraction and Navigation System
http://www.ai.mit.edu/people/jimmylin/papers/Piskorski00.pdf
-
Ravin, Y; Wacholder, N. (1997). Research Report: Extracting Names from Natural-Language Text
http://citeseer.nj.nec.com/29957.html
-
Rinaldi, F.; Black, W.J. (1999). A Named Entity Extraction System and its Web Extensions. Proceedings of the VEXTAL Conference, 22-24 November 1999, Venice, Italy, 197-202
http://www.ifi.unizh.ch/CL/rinaldi/PAPERS/vextal.pdf
-
Stevenson, M.; Gaizauskas, R. (2000). Using Corpus-derived Name Lists for Named Entity Recognition
http://citeseer.nj.nec.com/292851.html
-
Thielen, C. (1995). An Approach to Proper Name Tagging for German
http://citeseer.nj.nec.com/thielen95approach.html
-
Tür, G.; Hakkani-Tür, D.Z.; Oflazer, K. (2000). Name Tagging Using Lexical, Contextual, and Morphological Information
http://citeseer.nj.nec.com/tur00name.html
-
Valsamidis, T.; Cooper, M. (1999). An Analysis of Proper Name Distributions in Italian and French News Stories
(ATALA) Noms Propres, ATALA, Paris, May 1999.
(im EN Ordner)
-
Volk, M.; Clematide, S. (1996?). Learn - Filter - Apply - Forget. Mixed Approaches to Named Entity Recognition.
http://citeseer.nj.nec.com/453816.html
-
Wacholder, N.; Ravin, Y.; Choi, M. (1997). Disambiguation of Proper Names in Text
http://citeseer.nj.nec.com/wacholder97disambiguation.html
-
Wakao, T.; Gaizauskas, R.; Wilks, Y. (1996). Evaluation of an Algorithm for the Recognition and Classification of Proper Names
http://citeseer.nj.nec.com/wakao96evaluation.html
Petra Maier
Last modified: Wed Jun 5 12:24:33 MEST 2002