Erläuterungen zur Recall-Berechnung

Für NLP-Werkzeuge wird der Recall üblicherweise aus der Anzahl "negatives" (vom Tool nicht erkannte Wortformen) und aus der Anzahl aller in den Test miteinbezogenen Wortformen berechnet. Die errechnete Prozentzahl gibt die Erfolgsquote an. Üblicherweise werden "true negatives" (korrekterweise nicht erkannt) und "false negatives" (inkorrekterweise nicht erkannt) unterschieden.

Die Erstellung unserer Testsuite erfolgte mit automatischen Methoden, z.B. wurden per Zufallsgenerator eine 1.000-Nomina-, eine 1.000-Verb- und eine 1.000-Adjektiv-Liste aus dem SDeWaC Korpus (siehe [bib.Faasz-et-al-2010]) erzeugt - dabei wurde nicht geprüft, ob die Annotation jeweils korrekt ist. Es finden sich daher in den Listen auch korrekt geschriebene Wörter, die einer anderen Wortklasse angehören. Bei der Untersuchung der vom Tool erstellten Analysen klammern wir diese Wortformen jedoch völlig aus, dabei wird nicht beachtet, ob die Analyse korrekt oder inkorrekt war.

Es ergeben sich in unserem Fall also zwei Unterkategorien von "true negatives":

Recall - Kategorien