next up previous contents
Nächste Seite: Indexierung mittels invertierter Dateien Aufwärts: Indexierung. Algorithmen für die Vorherige Seite: Motivation   Inhalt

Textvorverarbeitung

Ein Index ist ein Mechanismus, um einen bestimmten Term in einem Text zu lokalisieren. Dem Datenbankdesigner bleibt es überlassen, wie die Terme eines Textdokuments zu ermitteln sind. Eine Möglichkeit ist es, jedes Wort als einen Term anzusehen. Diese Vorgehensweise führt sowohl zu einem sehr großen Vokabular des Textes, als auch zu einer hohen Zahl von Verweisen auf Orte des Auftretens der Terme, die in dem Index gespeichert werden müssten. Deshalb ist es üblich, jedes Wort auf eine bestimmte Weise zu transformieren, bevor es als ein Term in den Index aufgenommen wird.

Eine erste solche Transformation wird case-folding genannt. Darunter versteht man die Konversion von Großbuchstaben in ihre äquvalente Räpresentation als Kleinbuchstaben (oder umgekehrt). Die zweite, weniger naheliegende Transformation, ist die Reduzierung der Wörter auf ihre morphologischen Stämme. Dieser Prozeß ist unter dem Namen stemming bekant. Die letzte Transformation, die manchmal angewendet wird, ist das Weglassen von sogenannten Stoppwörtern. Dies sind Wörter, die keinen Informationsgehalt haben, wie beispielsweise ``der'', ``die'', ``das''. Normalerweise wird man erst nach einer solchen Vorverarbeitungsphase zu der eigentlichen Indexierungsaufgabe übergehen.

Es gibt verschiedene Techniken, um einen Index zu erstellen. In einer großen, statischen Dokumentensammlung sind invertierte Dateien, Signaturdateien und Bitmaps die drei geeignetsten Methoden für eine Indexerstellung. Bitmaps und invertierte Dateien benötigen einen Lexikon oder Vokabular -- eine Liste aller in der Dokumentensammlung vorkommender Terme -- während Signaturdateien ohne diese auskommen. In dieser Arbeit werden nur invertierte Dateien behandelt.


next up previous contents
Nächste Seite: Indexierung mittels invertierter Dateien Aufwärts: Indexierung. Algorithmen für die Vorherige Seite: Motivation   Inhalt
Nagy Istvan 2001-07-25