Zing berechnet Dokumentpunktzahlen anhand von drei Komponenten

  • Freigeben Version: Washingtondc
  • Aktualisiert 1. Februar 2024
  • 2 Minuten Lesedauer
  • Die Zing-Suchmaschine berechnet Dokumentpunktzahlen basierend auf der Häufigkeit, Reihenfolge und Gewichtung der Suchbegriffe im Dokument.

    Dokumentpunktzahlen

    Die Komponenten einer Dokumentpunktzahl für eine Suchabfrage sind:
    • Häufigkeit: Wie oft werden die Suchbegriffe im Dokument angezeigt?
    • Sequenz: Wie oft erscheinen die Suchbegriffe in derselben Reihenfolge wie die Suchabfrage?
    • Gewichtung: Wie stark wird dasQuellfeldgewichtet, in dem die Suchbegriffe angezeigt werden?
    Abbildung : 1. Beispiel für die Berechnung der Punktzahl für ein Dokument
    Grafik, die die Häufigkeits- und Sequenzbewertung für eine Beispielsuchabfrage und ein Beispieldokument zeigt.

    Häufigkeitspunkte

    Zing vergibt einen Punkt, wenn ein Suchbegriff an beliebiger Stelle im Dokument angezeigt wird. Wenn Sie beispielsweise nach der verteilten Datenbank serversuchen, hat ein Dokument, das dreimal verteilt, fünf Mal Datenbank und 17 Mal Server enthält, 25 Häufigkeitspunkte.

    Um die Punktzahlen der Suchergebnisse von Suchbegriffen zu erhöhen, die häufiger in einem Dokument, aber weniger häufig in einem Dokumentsatz vorkommen, können Sie Suchbegriffe nach inverser Dokumenthäufigkeit (IDF) bewerten. Wenn TF-IDF aktiviert ist, werden Suchbegriffpunktzahlen berechnet, indem die Begriffshäufigkeitspunktzahl mit der inversen Dokumenthäufigkeitspunktzahl multipliziert wird. Da das Aktivieren von TF-IDF die Gewichtung weniger häufiger Suchbegriffe erhöht, sind Suchergebnisse für diese Tabelle eher relevant. Beispiel: Bei der Suche nach der verteilten Datenbank „Server“ erhält der Begriff „ Verteilt “ möglicherweise eine höhere Punktzahl als der Begriff „ Server “, wenn er häufig in einem Dokument, aber weniger häufig im Dokumentsatz als Ganzes vorkommt.

    Zing wendet einen Multiplikator auf Häufigkeitspunkte basierend auf dem Wert des Attributs ts_weight für das Feld an, in dem der Suchbegriff angezeigt wird. Ein Feld mit einer Textsuche-Bewertungsgewichtung von 30 (ts_weight=30) würde 30 Punkte für jede Einbeziehung eines Suchbegriffs hinzufügen.

    Sequenzpunkte

    Zing verleiht einem Dokument mehr Punkte, wenn es die Suchbegriffe in der Reihenfolge enthält, in der sie eingegeben wurden. Je mehr Suchbegriffe in Folge vorhanden sind, desto exponentiell höher wird die Punktzahl. Zing vergibt Sequenzpunkte als 10^x, wobei x die Anzahl der Suchbegriffe ist, die nacheinander erscheinen.

    Im Beispiel für die verteilte Datenbankserversuche vergibt Zing einem Dokument 100 (10^2) Sequenzpunkte für jedes Mal ,wenn es den zweistufigen Zeichenfolgendatenbankserver enthält. Ebenso vergibt Zing einem Dokument jedes Mal 1000 (10^3) Sequenzpunkte, wenn es den verteilten Datenbankservermit drei Begriffen enthält.

    Zing wendet einen Multiplikator auf Sequenzpunkte basierend auf dem Wert des Attributs ts_weight für das Feld an, in dem die Sequenz angezeigt wird. Die Sequenzpunkte verwenden die Berechnung (Attribut 10^x * Feld ts_weight ).

    Gewichtungen der Feldbewertung

    Das System erhöht die standardmäßige Bewertungsgewichtung von Wissen Datensatznummern, Wissen Kurzbeschreibungen und Metadaten, Aufgabendatensatznummern und Aufgabenkurzbeschreibungen. Die Standardattribute ts_weight für diese Felder lauten wie folgt:
    • kb_knowledge.number = 50
    • kb_knowledge.short_description = 10
    • kb_knowledge.meta = 10
    • task.number = 50
    • task.short_description = 10

    Alle anderen Felder haben das Standardattribut ts_weight von 1. Der maximal mögliche Gewichtungswert ist 255.