next up previous
Next: Warum? Up: British National Corpus Previous: Wer?

Wie?

Jeder Text ist in Satz-Einheiten aufgeteilt, die darin enthaltenen Wörter sind klassifiziert. Die zwei Millionen Wörter des Kern-Corpus sind dabei nach dem BNC Enriched Tagset klassifiziert, das vergleichbar ist mit dem anderer bekannter Corpora wie dem Brown Corpus. Im Anhang ist ein Auszug daraus zu finden. Es umfaßt 139 verschiedene Tags, das BNC Basic Tagset begnügt sich mit 61.

Die Markup-Sprache, derer sich der BNC bedient, ist das auf SGML basierende Corpus Document Interchange Format (CDIF), das plattformunabhängiges Arbeiten ermöglicht. Die dazu gehörende DTD (Document Type Definition) ist auf der Website des BNC abrufbar.

Der Ablauf des Klassifizierens ist zwar stark automatisiert, aber manuelle Korrekturen sind dennoch unabdingbar. Die Roh-Texte durchlaufen verschiedene Programme und Skripte, die sie in Satzteile und orthografische Einheiten aufteilen und sodann mit Tags versehen. Der Mensch muß die Fehlerreporte, die die Programme ausgeben, überwachen und die Fehler entweder über das Programm oder, wenn's nicht anders geht, direkt im Quelltext ausmerzen. Die Fehlerquote des automatischen Taggings liegt bei etwa 1,7%. Bei knapp 5% der Wörter ergibt sich die Schwierigkeit, daß diesen nicht eindeutig nur eine grammatische Funktion zugewiesen werden kann. Die manuell mit dem Enriched Tagset versehenen Abschnitte haben nur noch eine Fehlerquote von 0,3%.


next up previous
Next: Warum? Up: British National Corpus Previous: Wer?

hundling
Son Jan 30 09:42:14 CET 2000