Hauptseminar: Suchmaschinen

Sommersemester 2010 am CIS
Dozent: Stefan Langer

Kursbeschreibung

Zu Beginn des Kurses steht eine Einführung in die Suchmaschinentechnologie mit Schwerpunkt auf linguistischen Verarbeitungskomponenten. Grundlage ist das Buch Manning/Raghavan/Schütze (2008). Anschließend sollen die Teilnehmerinnen und Teilnehmer dieses Kurses in Gruppenarbeit Komponenten einer Suchmaschine implementieren.

Voraussetzungen sind Grundkenntnisse in Lingustik, sowie Fertigkeiten in mindestens einer Programmiersprache (Perl, Python, Java oder C(++))

Scheinkriterien

Voraussetzung für die Scheinvergabe sind:

Schriftliche Arbeit/Dokumentation: Nähere Informationen

Wiki-Seite

Diese Seite können alle Seminarteilnehmer editieren! Wiki-Seite

Material und Literatur

Kursmaterial / Präsentationsfolien

Literatur

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. Webseite


Weiteres Material

Zeichensatzkodierungen

Tutorial on character encodings

Zeichensatzkodierungen in HTML


Textnormalisierung

Die ICU library

Sprach- und Zeichensatzkodierungsidentifikation

TextCat Sprachidentifizierer, mit einer Liste von Sprachenidenfizierungstools auf dem Netz

Xerox-Sprachenidentifizierer


Rechschreibkorrektur

Wikipedia zur Levenshstein-Distanz-Berechnung

Webseite zur Levenshtein-Distanz