Masterseminar Suchmaschinen

Sommersemester 2021 am Centrum für Informations- und Sprachverarbeitung
Dozent: Stefan Langer

Kursbeschreibung

Zu Beginn des Kurses steht eine Einführung in die Suchmaschinentechnologie mit Schwerpunkt auf linguistischen Verarbeitungskomponenten. Anschließend sollen die Teilnehmerinnen und Teilnehmer dieses Kurses in Gruppen- oder Einzelarbeit eine OpenSource-Suchmaschine (vorzugsweise Lucene / Elasticsearch / Solr oder andere) mit eigenen Modulen erweitern oder eine eigene Suchmaschine implementieren. In den letzten Sitzungen wird die neuere Forschung im Bereich Suchmaschinen / Information Retrieval vorgestellt.

Voraussetzungen sind Grundkenntnisse in Lingustik, sowie Fertigkeiten in mindestens einer Programmiersprache (Python, Java, C(++/#) oder andere).

Seminarübersicht - Semesterplan

Scheinkriterien

Voraussetzung für die Scheinvergabe sind:

Übungen

... finden sie HIER

Anregungen für Referatsthemen

... finden sie HIER

Material und Literatur

Präsentationsfolien

Referate

Kursmaterial

Download des Briefmaterials und der Python-Skripten


Literatur

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. Webseite

Francisco De Sousa Webber, Semantic Folding Theory And its Application in Semantic Fingerprinting. White Paper. CoRR (Computing Research Repository). 2015https://arxiv.org/abs/1511.08855

IR-Konferenzen

SIGIR (Special Interest Group on Information Retrieval)

TREC (Test Retrieval Conference)

ECIR (European Conference on Information Retrieval)

Weiteres Material

Zeichensatzkodierungen

Tutorial on character encodings

Zeichensatzkodierungen in HTML


Textnormalisierung

Die ICU library

Sprach- und Zeichensatzkodierungsidentifikation

TextCat Sprachidentifizierer, mit einer Liste von Sprachenidenfizierungstools auf dem Netz

Xerox-Sprachenidentifizierer

Es existieren eine Reihe von OpenSource Sprachenidentifizierungsmodulen.


Rechschreibkorrektur

Wikipedia zur Levenshstein-Distanz-Berechnung

Webseite zur Levenshtein-Distanz