Zeit und Ort:
Mi 13-15 , Raum 0.37
Das intelligente Indexieren von Web-Seiten in modernen Suchmaschinen setzt voraus, daß die Struktur und der Inhalt dieser Seiten entsprechend aufbereitet worden sind. Unter "Tokenisierung" von Web-Seiten verstehen wir hier die Konvertierung von html-Dokumenten in indexierbare Strukturen. Dazu gehören u.a. die Identifikation der Sprache, in der das Dokument geschrieben ist, die Identifikation des Zeichensatzes, die Extraktion der Inhaltswörter und deren linguistische Analyse (Lemmatisierung, Normalisierung), die Erkennung von semantischen Kategorien, mit denen das Dokument klassifiziert werden kann, und viele andere Eigenschaften. Das Seminar behandelt diese Probleme anhand von konkreten Programmen (in Perl und evtl. auch anderen Programmiersprachen).