Next: Wer?
Up: British National Corpus
Previous: Wo?
Er ist der größte Corpus für zeitgenössisches Englisch. Ein paar Daten:
- 100.106.008 Wörter (alle indiziert und klassifiziert)
- 1,5 Gigabyte an Daten
- 4.124 Texte, teils literarisch, teils aus Zeitungen und Zeitschriften, 863 davon
sind transkribierte Reden und Unterhaltungen.
- 6.125.000 Satzeinheiten, die automatisch segmentiert und klassifiziert wurden
von dem stochastischen Sprach-Bestandteils-Tagger CLAWS der Uni Lancaster.
Dabei hält er sich an die Richtlinien der TEI
(Text Encoding Initiative),
sowie an den SGML-Standard
ISO 8879. Fertiggestellt wurde er 1994, präsentiert 1995.
Er soll ein genaues Abbild der aktuellen englischen Sprache sein und nimmt auf
historische Entwicklungen keine Rücksicht. Er enthält Ausschnitte aus regionalen
und landesweiten Zeitungen, Unterhaltungs- und Fachzeitschriften, Belletristik
und Sachbüchern, sowie wissenschaftlichen Arbeiten. Die Sprach-Transskriptionen
enthalten Gesprochenes, Gesagtes und Gerede von Menschen aller Bildungsstufen
und Altersgruppen.
Texte wurden eingescannt und mit OCR-Software eingelesen, abgetippt oder waren
bereits in elektronischer Form vorhanden
Next: Wer?
Up: British National Corpus
Previous: Wo?
hundling
Son Jan 30 09:42:14 CET 2000