Zing berechnet Dokumentpunktzahlen anhand von drei Komponenten

  • Freigeben Version: Yokohama
  • Aktualisiert 30. Januar 2025
  • 2 Minuten Lesedauer
  • Die Zing-Suchmaschine berechnet Dokumentpunktzahlen basierend auf der Häufigkeit, Reihenfolge und Gewichtung von Suchbegriffen im Dokument.

    Punktzahlen dokumentieren

    Die Komponenten einer Dokumentpunktzahl für eine Suchabfrage sind:
    • Häufigkeit: Häufigkeit, mit der die Suchbegriffe im Dokument angezeigt werden.
    • Reihenfolge: Gibt an, wie oft die Suchbegriffe in der gleichen Reihenfolge wie die Suchabfrage erscheinen.
    • Gewichtung: Gibt an, wie stark das Quellfeld gewichtet wird, in dem die Suchbegriffe angezeigt werden.
    Abbildung : 1. Beispiel für die Berechnung der Dokumentpunktzahl
    Grafik, die die Häufigkeit und Reihenfolge der Bewertung für eine Beispielsuchabfrage und ein Dokument zeigt.

    Häufigkeitspunkte

    Zing vergibt einen Punkt, wenn ein Suchbegriff an einer beliebigen Stelle im Dokument angezeigt wird. Wenn Sie beispielsweise nach dem verteilten Datenbankserversuchen, hat ein Dokument, das verteilt drei Mal, Datenbank fünf Mal und Server 17 Mal enthält, 25 Häufigkeitspunkte.

    Um die Punktzahlen in den Suchergebnissen von Suchbegriffen zu erhöhen, die in einem Dokument häufiger, in einem Dokumentsatz jedoch weniger häufig vorkommen, können Sie Suchbegriffe nach inverser Dokumenthäufigkeit (IDF) bewerten. Wenn TF-IDF aktiviert ist, werden die Suchbegriff-Punktzahlen berechnet, indem die Begriff-Häufigkeits-Punktzahl mit der inversen Dokumenthäufigkeits-Punktzahl multipliziert wird. Da durch das Aktivieren von TF-IDF die Gewichtung weniger häufiger Suchbegriffe erhöht wird, sind Suchergebnisse für diese Tabelle wahrscheinlicher relevant. Beispielsweise kann bei der Suche nach einem verteilten Datenbankserverder Begriff verteilt eine höhere Punktzahl erhalten als der Begriff „Server“, wenn er in einem Dokument häufig vorkommt, im Dokumentsatz als Ganzes jedoch weniger häufig.

    Zing wendet einen Multiplikator auf Häufigkeitspunkte basierend auf dem Wert des Attributs ts_weight für das Feld an, in dem der Suchbegriff vorkommt. Ein Feld mit einer Textsuche-Bewertungsgewichtung von 30 (ts_weight=30) würde 30 Punkte für jede Einbeziehung eines Suchbegriffs hinzufügen.

    Sequenzpunkte

    Zing verleiht einem Dokument mehr Punkte, wenn es die Suchbegriffe in der gleichen Reihenfolge enthält, in der sie eingegeben wurden. Je mehr Suchbegriffe in einer Sequenz vorhanden sind, desto exponentiell höher wird die Punktzahl. Zing vergibt Sequenzpunkte als 10^x, wobei x die Anzahl der Suchbegriffe ist, die nacheinander vorkommen.

    Im Beispiel für die Suche mit dem verteilten Datenbankserver vergibt Zing einem Dokument 100 (10^2) Sequenzpunkte für jedes Mal, wenn es den Zwei-Begriffs- Zeichenfolgendatenbankservereinbezieht. Ebenso vergibt Zing einem Dokument jedes Mal 1000 (10^3) Sequenzpunkte, wenn es den verteilten Datenbankservermit drei Begriffen in Zeichenfolgen einbezieht.

    Zing wendet einen Multiplikator auf Sequenzpunkte basierend auf dem Wert des ts_weight -Attributs für das Feld an, in dem die Sequenz angezeigt wird. Die Sequenzpunkte verwenden die Berechnung (Attribut 10^x * Feld ts_weight ).

    Feldbewertungsgewichtungen

    Das System erhöht die standardmäßige Bewertungsgewichtung von Wissen Datensatznummern, Wissen Kurzbeschreibungen und Metadaten, Aufgabendatensatznummern und Kurzbeschreibungen der Aufgabe. Die Standardattribute ts_weight für diese Felder lauten wie folgt:
    • kb_knowledge.number = 50
    • kb_knowledge.short_description = 10
    • kb_knowledge.meta = 10
    • task.number = 50
    • task.short_description = 10

    Alle anderen Felder haben das Standardattribut ts_weight von 1. Der maximal mögliche Gewichtungswert ist 255.