Aufgabe 6
Neue Korpora: Wikipedia Deutsch auf den Rechnern der Informatik:
auf ifi
## Falls Sie von zu Hause aus hier arbeiten, sonst ist es auf allen ifi Rechnern verfügbar:
ssh <username>@remote.informatik.uni-muenchen.de
cd /home/proj/korpus_unix/data/de/wikipedia
de.wikipedia.dump.gz
- Holen Sie die Datei
de.wikipedia.dump.gz
aus dem Verzeichnis
- nach Hause: Die gesamte Datei (falls Sie ein schnelles Netz haben)
- Falls Sie weniger Daten übertragen wollen, bzw. wenn Sie auf den Rechnern der Informatik arbeiten und in Ihrem Homevereichnis arbeiten: nur maximal 100 MB!!!
Tipp: Verwenden sie gunzip -c in einer PIPE und brechen sie ab, wenn 100 MB in Ihrem Verzeichnis sind.
eine andere Möglichkeit besteht auch darin mit head -c sich nur eine bestimmte Anzahl von Byte übertragen zu lassen
gunzip -c ... | head -c 10M > erg.txt
-
Entkomprimieren Sie die Datei.
- Entwickeln Sie
aus dem Dump der Wikipedia Seiten eine Wortliste aller Worte und geben sie
die 10 wichtigesten Wörter aus.(Achtung, entfernen Sie die Stopwörter,
siehe Aufgabe 1, Bemerkung: Es gibt auch eine Wikipedia Stopwortliste).
- Konvertieren Sie die Datei nach utf-8
- Extrahieren Sie alle Wörter, die zwischen 4 und 6 Buchstaben lang sind und erzeugen Sie eine Wortliste Verwenden Sie das Kommando
grep
- Lösen Sie die gleiche Aufgabe mit einem python Script
- Lösen Sie die gleiche Aufgabe mit einem python oneliner
- Was ist das häufigste Wort mit 4-6 Buchstaben.
- Untersuchen Sie mit
agrep
welche Wörter mit Editionsabstand eins und zwei zu diesem häufigsten Wort passen.