Centrum für Informations- und Sprachverarbeitung
print


Breadcrumb Navigation


Content

Semantische Netze und Themenerfassung in Texten

In der Abeitsgruppe von Prof. Schulz werden seit vielen Jahren Techniken untersucht, wie man auf der Basis semiautomatisch erstellter semantischer Netze in Texten (aus Archiven, Bibliotheken, Web) die dort auftretenden Themen nach Relevanz erfassen kann. Mittels geeigneter linguistischer Wissensressourcen werden auch alle Themen erkannt, die nicht wörtlich im Text auftreten. Die Erfassung von Themen in Artikeln hat viele Anwendungen im Bereich von Suchmaschinen, Digitale Bibliotheken, Informationsverknüpfung und Dokumentation. Sie erlaubt eine Suche nach Themen ohne Angabe von passenden Stichwörtern, die Verknüpfung von Dokumenteninhalten mit externen Wissensressourcen wie der Wikipedia, die automatische Erstellung eines Überblicks zu den Inhalten einer Dokumentenkollektion und weitere Formen des thematischen Zugriffs und der Recherche. Als Spezialformen sind auch Suche nach geographischen Bereichen (Ländern, Landkreisen, etc.) sowie nach Zeitperioden (Mittelalter, 18. Jahrhundert, Nachkriegszeit,..) möglich.

 

Hauptgrundlage der automatischen Themenerfassung ist ein extrem umfangreiches semantisches Netz mit über 90.000 hierarchisch geordneten Themen, für die alternative linguistische Bezeichnungen und Synonyme hinterlegt sind.  Die Forschungen in der Arbeitsgruppe mündeten 2008 in das CIS Spinoff TopicZoom. Die thematische Verschlagwortung deutschsprachiger Dokumente mittels TopicZoom Technologie steht als freier Webservice zur Verfügung und kann hier auch ohne Anmeldung einfach ausprobiert werden.