Masterseminar Suchmaschinen

Sommersemester 2017 am Centrum für Informations- und Sprachverarbeitung
Dozent: Stefan Langer

Kursbeschreibung

Zu Beginn des Kurses steht eine Einführung in die Suchmaschinentechnologie mit Schwerpunkt auf linguistischen Verarbeitungskomponenten. Grundlage ist u.a. das Buch Manning/Raghavan/Schütze (2008). Anschließend sollen die Teilnehmerinnen und Teilnehmer dieses Kurses in Gruppenarbeit Komponenten einer Suchmaschine implementieren, oder eine OpenSource-Suchmaschine (z.B. Lucene / Elasticsearch / Solr) mit eigenen Modulen erweitern.

Voraussetzungen sind Grundkenntnisse in Lingustik, sowie Fertigkeiten in mindestens einer Programmiersprache (Perl, Python, Java, C(++/#) oder andere)

Seminarübersicht - Semesterplan

Scheinkriterien

Voraussetzung für die Scheinvergabe sind:

Schriftliche Arbeit/Dokumentation: Nähere Informationen

Material und Literatur

Kursmaterial / Präsentationsfolien


Literatur

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. Webseite


Weiteres Material

Zeichensatzkodierungen

Tutorial on character encodings

Zeichensatzkodierungen in HTML


Textnormalisierung

Die ICU library

Sprach- und Zeichensatzkodierungsidentifikation

TextCat Sprachidentifizierer, mit einer Liste von Sprachenidenfizierungstools auf dem Netz

Xerox-Sprachenidentifizierer

Es existieren eine Reihe von OpenSource Sprachenidentifizierungsmodulen.


Rechschreibkorrektur

Wikipedia zur Levenshstein-Distanz-Berechnung

Webseite zur Levenshtein-Distanz