3.7.3. WF Paderborn¶
==============
3.7.3.1. Regelbasierte Suchmaschine “WF”:¶
Was ist WF?
Eigens programmierter regelbasierter C++ Suchautomat
Keine Indizierung
Durchsucht gesamten Wittgenstein-Korpus
Sucharten: Lemmatisiert, Partikelverben, Regex, Wortarten, uvm.
Workflow von WF
Server ruft wf auf.
WF startet die Suche auf jedem Dokument
Liefert ein json-Objekt zurück, das alle Treffer enthält.
Server bekommt die Ergebnisse.
Compilierung von WF
WF wird mit Hilfe mehrer Makefiles compliert
Makefiles sind Teil der CI von gitlab
Möglichkeiten WF zu Nutzen
Lexikalische, Exakte Suche
Satzkategorien
Lexikalische Wortkategorien (+Morphologie)
Semantische Kategorien
Syntaktische Wortkategorien
Suche mit Partikelverben (zusammenhängen)
Komplexe Reguläre Ausdrücke
Rankingverfahren
Allgemeinere Suche ermöglichen
nach gewissen Überthemen suchen können
mehr Suchtreffer ermöglichen
Funktionalität:
Finden für Mehrwortsuchanfragen mit dem
|- OperatorErgebnisse nach Relevanz sortieren
Feature für die Relevanz:
Distanz zwischen Suchtreffern in einem Satz
Qualität der Treffer im Bezug zur Suchanfrage
Ranking auf Satz/Absatzebene
3.7.3.2. Aufgaben:¶
Aufgabe: Finden Sie in der Datei
wf/src/srv/Searcher.cppundSearchDocument.cppheraus, wofür ein Hit steht und wie/wo der Hit erstellt wird. Hilfreiche Befehle:docker psunddocker exec -i wastserver_wf_1 /bin/shAufgabe: Anwendung der Suchmaschine mit Hilfe der Website und deren Beispielen oder mit dem Docker:
herausfallenEigennamen gefolgt von
schreibendenkengefolgt von 1-5 beliebigen Wörtern, gefolgt vonẀahrheitaber nicht LemmatisiertEigene Nutzungsmöglichkeiten ausprobieren.
Aufgabe: Werden die Development-Seite nutzen.
Zwerge Menschen GrößeGleiche Suche, aber Ranked auswählen
Eigene Suchbegriffe ausprobieren und vergleichen
Partikelverben-Suche / Eigene Suchanfragen