Beschreibung
Ziel des Kurses ist es, elementare Techniken und Vorgehensweisen der Projektarbeit anhand eines konkreten Beispiels, der Thesauruserstellung, zu erlernen. Jeder Teilnehmer wird eigenständig ein Thesaurusprojekt planen und durchführen. Die Computerlinguistik wird dabei natürlich nicht zu kurz kommen: Wir werden uns im Rahmen des Praktikums auch ausführlich mit dem Thema "Thesaurus" beschäftigen. Insbesondere werden folgende Themen behandelt:
- was ist ein Thesaurus
- Überblick über existierende Thesauri
- automatische Thesauruskonstruktion
- Anwendungen von Thesauri im Information Retrieval
Anforderungen
Es wird von jedem Seminarteilnehmer aktive Mitarbeit erwartet. Dazu gehört sowohl die Übernahme einer Referatthemas als auch die eigenverantwortliche Durchführung eines Thesaurus-Projekts. Teilnehmer, die einen Schein erwerben wollen, müssen eine schriftliche Hausarbeit erstellen.
Thesaurus Projekt
Jeder Seminarteilnehmer sollte im Laufe des Semesters ein eigenständiges Thesaurus-Projekt zu einem Themengebiet eigener Wahl bearbeiten. Zu diesem Thesaurus-Projekt gehören u.a. folgende Teilaufgaben:
- genaue Definition des gewählten Sachgebiets und Erstellung eines konkreten Projektplans
- Erfassung und Sichtung der vorhandenen Ressourcen zu diesem Themengebiet
- eigenständige manuelle Erstellung eines Teilthesaurus (bzw. gegebenenfalls die manuelle Erweiterung und Modifizierung eines bereits existierenden Thesaurus)
- Erfahrungsbericht über die Probleme bei der Erstellung des Thesaurus
- Praktische Anwendung des Thesaurus: Erstellung einer Literaturliste zum gewählten Themengebiet und manuelle Verschlagwortung mit Hilfe des erstellten Thesaurus
- Erfahrungsbericht zur automatischen Verschlagwortung
- Experiment zur Query-Expansion bei Suchmaschinen
- Erfahrungsbericht zur Query-Expansion
- Abschlussbericht mit Bewertung
Anleitung
Muster für Projektplan
Termine:
- 19.4. Vorbesprechung und Einführung
- 26.4.Grundlagen Projektmanagement Einführung in Projektarbeit
- 3.5. fällt aus
- 10.5. Gruppensitzung: Vorstellung der Projektpläne
- 24.5. Einführung in Thesauri
- 31.5. Was ist ein Thesaurus - Normen
[Normen 1], [Normen 2]
- 14.6. Wie erstellt man einen Thesaurus
[Howto]
- 21.6. Gruppensitzung: 1. Zwischenbericht
- 28.6. Verwandte Formalismen
[Format 1]
- 5.7. Beispiele für Thesauri 1
- 12.7. Beispiele für Thesauri 2
- Automatische Thesaurusgenerierung
21./22.5. [Autom 1], [Autom 2], [Autom 3], [Autom 4]
- 19.7. Gruppensitzung: 2. Zwischenbericht
- 26.7. Ausweichtermin
Themen
- Was ist ein Thesaurus? Normen und Standards (Din, ISO, Z39.19)
Material:
- [Howto] Wie erstellt man einen Thesaurus?
Material:
- Verschiedene Thesauri/Klassifikationssysteme im Detail (eigene Vorschläge der Teilnehmer sind willkommen!):
- [Th 1] Roget's Thesaurus
Material: Info zu Rogets im WWW
- [Th 2] WordNet
Material: Christine Fellbaum (1998): WordNet - A lexical Database. MIT Press
- [Th 3] OpenThesaurus
Material: OpenThesaurus bzw. OpenThesaurus - Background
- [Th 4] MESH und UMLS
Material: MeSH und UMLS Metathesaurus bzw. UMLS
- [Th 5] Getty Thesaurus ("Geographic Names" und "Arts & Architecture")
Material: s.u.
- [Th 6] Multilingual Thesauri, Beispiel Eurovoc
Material: Eurovoc
- [Format 1] Standards, Formate und Ähnliches (RDF, TML, Topic Maps)
Material:
- Automatische Erstellung von Thesauri
- [Autom 1] Methoden: Überblic
Material: Grefenstette Kapitel 1 und 2
- [Autom 2] Phrasenerkennung und Terminologie-Extraktion
Material:
Grefenstette S. 35-46
- [Autom 3] Pattern Extraktion aus großen Korpora
Material:
Thesaurus:
Grefenstette, G. (1994): Explorations in Automatic Thesaurus Discovery. Kluwer.
Als Einführung ins Information Retrieval:
Berry, M. & M. Browne (1999): Understanding Search Engines. SIAM
Links zu Thesaurus Tools
Thesaurus Tools
Links to On-Line Thesauri
- Verzeichnisse
- Einzelne Thesauri: