Aufgabe 5

Holen Sie von Fjodor Dostojewskis Roman, "Der Idiot" den "Ersten Teil" des Buches. Sie finden das Buch auf Zeno.org:
Quelle: http://www.zeno.org - Zenodot Verlagsgesellschaft mbH
(hier klicken)

Der Erste Teil des Romans ist in 16 Kapitel unterteilt.
  1. Schreiben Sie ein bash-Shellskript, das die einzelnen Kapitel mit dem wget holt und konvertieren Sie die .html Dateien der Kapitel mit lynx zu Textdateien und verknüpfen Sie die einzelnen Kapitel in der Datei erstesBuch.txt
  2. Erzeugen Sie mit UNIX Befehlen eine Frequenzliste aller Wörter die in der Datei erstesBuch.txt stehen.
  3. Lösen Sie die nächste Aufgabe als awk und als python oneliner Programm:
  4. Extrahieren Sie aus der Frequenzliste drei Frequenzlisten in denen folgende Wörter/Token mit ihrer Frequenz stehen:
  5. Sie sehen, dass in der Datei erstesBuch.txt noch viele Textpassagen sind, die eigenlich nicht zum Text des Romans gehören.
  6. Versuchen Sie schrittweise mit mehreren python-onliner (jeder python-oneliner entfernt eine spezifische Textpassage): So entfernen sie diese überflüssigen Passagen schon in den .html Dateien, die sie mit wget geholt haben. Erst dann erzeugen Sie die Textdatei mit den einzelnen Kapiteln.
  7. in etwa für alle 16 Kapitel:
      wget kapitel.x  |  python onliner1 | python oneliner2 | ...  | lynx -dump  >> erstesBuch.txt 
  8. Erzeugen Sie nun erneut die drei Frequenzlisten mit ihren Programmen aus 5.3.