3.7.3. WF Paderborn¶
==============
3.7.3.1. Regelbasierte Suchmaschine “WF”:¶
Was ist WF?
Eigens programmierter regelbasierter C++ Suchautomat
Keine Indizierung
Durchsucht gesamten Wittgenstein-Korpus
Sucharten: Lemmatisiert, Partikelverben, Regex, Wortarten, uvm.
Workflow von WF
Server ruft wf auf.
WF startet die Suche auf jedem Dokument
Liefert ein json-Objekt zurück, das alle Treffer enthält.
Server bekommt die Ergebnisse.
Compilierung von WF
WF wird mit Hilfe mehrer Makefiles compliert
Makefiles sind Teil der CI von gitlab
Möglichkeiten WF zu Nutzen
Lexikalische, Exakte Suche
Satzkategorien
Lexikalische Wortkategorien (+Morphologie)
Semantische Kategorien
Syntaktische Wortkategorien
Suche mit Partikelverben (zusammenhängen)
Komplexe Reguläre Ausdrücke
Rankingverfahren
Allgemeinere Suche ermöglichen
nach gewissen Überthemen suchen können
mehr Suchtreffer ermöglichen
Funktionalität:
Finden für Mehrwortsuchanfragen mit dem
|
- OperatorErgebnisse nach Relevanz sortieren
Feature für die Relevanz:
Distanz zwischen Suchtreffern in einem Satz
Qualität der Treffer im Bezug zur Suchanfrage
Ranking auf Satz/Absatzebene
3.7.3.2. Aufgaben:¶
Aufgabe: Finden Sie in der Datei
wf/src/srv/Searcher.cpp
undSearchDocument.cpp
heraus, wofür ein Hit steht und wie/wo der Hit erstellt wird. Hilfreiche Befehle:docker ps
unddocker exec -i wastserver_wf_1 /bin/sh
Aufgabe: Anwendung der Suchmaschine mit Hilfe der Website und deren Beispielen oder mit dem Docker:
herausfallen
Eigennamen gefolgt von
schreiben
denken
gefolgt von 1-5 beliebigen Wörtern, gefolgt vonẀahrheit
aber nicht LemmatisiertEigene Nutzungsmöglichkeiten ausprobieren.
Aufgabe: Werden die Development-Seite nutzen.
Zwerge Menschen Größe
Gleiche Suche, aber Ranked auswählen
Eigene Suchbegriffe ausprobieren und vergleichen
Partikelverben-Suche / Eigene Suchanfragen