Zing calcule les scores des documents à l’aide de trois composants :

  • Rversion finale: Washingtondc
  • Mis à jour 1 févr. 2024
  • 2 minutes de lecture
  • Le moteur de recherche Zing calcule les scores des documents en fonction de la fréquence, de la séquence et de l’épaisseur des termes recherchés dans le document.

    Scores de documents

    Les composants d’un score de document pour une requête de recherche sont les suivants :
    • Fréquence : fréquence à laquelle les termes recherchés apparaissent dans le document.
    • Séquence : fréquence à laquelle les termes de recherche apparaissent dans le même ordre que la requête de recherche.
    • Poids : poids du champ source dans lequel les termes de recherche apparaissent.
    Figure 1. Exemple de calcul du score d’un document
    Graphique montrant la fréquence et la notation de séquence pour un exemple de requête de recherche et de document.

    Points de fréquence

    Zing attribue un point chaque fois qu’un terme de recherche apparaît n’importe où dans le document. Par exemple, lors de la recherche d’un serveur de base de données distribué, un document qui contient distribué trois fois, base de données cinq fois et serveur 17 fois aurait 25 points de fréquence.

    Pour augmenter les scores des résultats de recherche des termes recherchés qui apparaissent plus fréquemment dans un document, mais moins fréquemment dans un jeu de documents, vous pouvez Termes de recherche de score par fréquence de document inverse (IDF). Lorsque TF-IDF est activé, les scores des termes de recherche sont calculés en multipliant le score de fréquence des termes par le score inverse de fréquence du document. Étant donné que l’activation de TF-IDF augmente le poids des termes de recherche moins courants, les résultats de recherche de cette table sont plus susceptibles d’être pertinents. Par exemple, lors de la recherche de serveur de base de données distribué, le terme distribué peut recevoir un score plus élevé que serveur s’il apparaît fréquemment dans un document, mais moins fréquemment dans l’ensemble de documents.

    Zing applique un multiplicateur aux points de fréquence en fonction de la valeur de l’attribut ts_weight du champ dans lequel le terme de recherche apparaît. Un champ avec un poids de score de recherche de texte de 30 (ts_weight=30) ajouterait 30 points pour chaque inclusion d’un terme de recherche.

    Points de séquence

    Zing attribue plus de points à un document lorsqu’il contient les termes de recherche dans le même ordre dans lequel ils ont été saisis. Plus il y a de termes de recherche en séquence, plus le score devient exponentiellement élevé. Zing attribue des points de séquence à 10^x, où x est le nombre de termes de recherche qui apparaissent dans l’ordre.

    Dans l’exemple de recherche d’un serveur de base de données distribué, Zing attribue à un document 100 (10^2) points de séquence pour chaque fois qu’il inclut le serveur de base de données à deux termes. De même, Zing attribue à un document 1000 (10^3) points de séquence chaque fois qu’il inclut le serveur de base de données distribué à chaîne de trois termes.

    Zing applique un multiplicateur aux points de séquence en fonction de la valeur de l’attribut ts_weight du champ dans lequel la séquence apparaît. Les points de séquence utilisent le calcul (attribut de champ ts_weight 10^x *).

    Poids de scores des champs

    Le système élève le poids de notation par défaut des numéros d’enregistrement, Knowledge des brèves descriptions et des métadonnées, des numéros d’enregistrement de Knowledge tâche et des brèves descriptions de tâche. Les attributs par défaut ts_weight de ces champs sont les suivants :
    • kb_knowledge.number = 50
    • kb_knowledge.short_description = 10
    • kb_knowledge.meta = 10
    • task.number = 50
    • task.short_description = 10

    Tous les autres champs ont un attribut par défaut ts_weight de 1. La valeur de poids maximale possible est 255.