Proposition: Phasen des brokerbasierten DIRs

Verteiltes Information Retrieval mittels eines brokerbasierten Ansatzes umfasst i.d.R. drei Phasen:

  • Ressourcenbeschreibung
    • Die Inhalte der angeschlossen IRS müssen so beschrieben werden, dass jeweils nur diejenigen Queries an das entsprechende IRS weitergeleitet werden, die von diesem auch beantwortet werden können.
    • Umfasst bspw. Term/Dokument-Statistiken, Metadaten oder den vollständigen Inhalt des IRS
    • Kann auch Triggerworte umfassen, (bspw. Foto, Freunde bei Facebook)
  • Ressourcenselektion
    • Auf Basis der Ressourcenbeschreibung muss für jede Query automatisiert entschieden werden, welche der IRS die Query potenziell beantworten könnten.
  • Ergebniszusammenführung
    • Die von den angesprochenen IRS zurückgemeldeten Ergebnismengen müssen vom Broker zusammengeführt werden.
    • Das ist problematisch, weil der Broker i.d.R. nicht weiß, wie die jeweiligen IRS die RSVs der Dokumente berechnen - er kann aus den erhaltenen RSVs also selber keine Rangfolge konstruieren.
    • Weiter kann es zu Dokumentüberlappung kommen (i.e., gleiche Dokumente werden über mehr als ein IRS verwaltet).