Definition: Keyword-Search in Combined-Data

Als Keyword-Search in Combined-Data bezeichnen wir einen Ansatz der semantischen Suche, bei dem keyword-basierte Anfragen auf einer Kombination aus unstrukturiertem Text und strukturierten Wissensbasen ausgeführt werden.

Ziel ist es, die einfache Bedienbarkeit der Keyword-Suche mit der Präzision semantisch strukturierter Daten zu verbinden. Dazu werden Textdaten und Einträge aus Knowledge Bases (z. B. RDF-Daten) gemeinsam indexiert und für die Suche nutzbar gemacht.

Strukturierte semantische Informationen werden dabei typischerweise als separate Felder eines Dokuments modelliert (z. B. Typen, Relationen, Labels oder Annotationen) und zusammen mit textuellen Inhalten in einem invertierten Index gespeichert.

Die Relevanzbewertung erfolgt weiterhin über Best-Match-Modelle, die jedoch für strukturierte Dokumente erweitert sind, insbesondere durch feldbasierte Ranking-Modelle wie BM25F. Dabei werden Termfrequenzen feldweise berechnet, unterschiedlich gewichtet (Boost-Faktoren) und anschließend zu einem Gesamtscore kombiniert.

Keyword-Search in Combined-Data stellt damit einen Brückenschlag zwischen klassischem Information Retrieval und semantischer Suche dar, ohne die Verwendung formaler Abfragesprachen wie SPARQL zu erfordern.