Aufgabe 6

Neue Korpora: Wikipedia Deutsch auf den Rechnern der Informatik:
auf ifi
## Falls Sie von zu Hause aus hier arbeiten, sonst ist es auf allen ifi Rechnern verfügbar:
ssh <username>@remote.informatik.uni-muenchen.de   
 cd /home/proj/korpus_unix/data/de/wikipedia
 de.wikipedia.dump.gz
  1. Holen Sie die Datei de.wikipedia.dump.gz aus dem Verzeichnis
    1. nach Hause: Die gesamte Datei (falls Sie ein schnelles Netz haben)
    2. Falls Sie weniger Daten übertragen wollen, bzw. wenn Sie auf den Rechnern der Informatik arbeiten und in Ihrem Homevereichnis arbeiten: nur maximal 100 MB!!!
      Tipp: Verwenden sie gunzip -c in einer PIPE und brechen sie ab, wenn 100 MB in Ihrem Verzeichnis sind.
      	eine andere Möglichkeit besteht auch darin mit head -c sich nur eine bestimmte Anzahl von Byte übertragen zu lassen
      
      gunzip -c ... | head -c 10M > erg.txt
  2. Entkomprimieren Sie die Datei.
  3. Entwickeln Sie aus dem Dump der Wikipedia Seiten eine Wortliste aller Worte und geben sie die 10 wichtigesten Wörter aus.(Achtung, entfernen Sie die Stopwörter, siehe Aufgabe 1, Bemerkung: Es gibt auch eine Wikipedia Stopwortliste).
  4. Konvertieren Sie die Datei nach utf-8
  5. Extrahieren Sie alle Wörter, die zwischen 4 und 6 Buchstaben lang sind und erzeugen Sie eine Wortliste Verwenden Sie das Kommando grep
  6. Lösen Sie die gleiche Aufgabe mit einem python Script
  7. Lösen Sie die gleiche Aufgabe mit einem python oneliner
  8. Was ist das häufigste Wort mit 4-6 Buchstaben.
  9. Untersuchen Sie mit agrep welche Wörter mit Editionsabstand eins und zwei zu diesem häufigsten Wort passen.