next up previous
Nächste Seite: Literatur Aufwärts: Weitere Anwendungen Vorherige Seite: Vektordarstellung von Menschen bzw.

Korrekturverfahren

In [4] wird LSI zur Verbesserung von Korrekturverfahren im OCR eingesetzt.

Ohne LSI würde das Verfahren so aussehen: Die im Input-Text falsch geschriebenen Wörter werden in ihre Bi- und Trigramme zerlegt; der Wort-Vektor ist dann das geordnete Tupel aus Bi- bzw. Trigrammfrequenzen (der Vektor ist an den meisten Stellen Null, ähnlich den Dokumentvektoren, da die meisten möglichen Bigramme nicht im Wort vorkommen). Der Vektorraum enthält dann korrekte Wörter, denen auf dieselbe Weise Koordinaten zugewiesen wurden; die ähnlichsten sind Korrektur-Kandidaten.

Mit LSI wird eine n-Gramm-Wort-Matrix (entsprechend der Term-Dokument-Matrix) aus den bekannten korrekten Wörtern erzeugt und nach dem SVD-Verfahren zerlegt. Jetzt können allen Bi- und Trigrammen Vektoren zugeordnet werden, und jedes zu korrigierende Wort kann entsprechend seinen eigenen Bi- und Trigrammen etwa im Schwerpunkt der zugehörigen Vektoren angeordnet werden. Dann sind die Wortvektoren mit minimalem Abstand mögliche Korrekturkandidaten.