O Zing calcula pontuações de documento usando três componentes

  • Versão de lançamento: Washingtondc
  • Atualizado 1 de fev. de 2024
  • 2 min. de leitura
  • O mecanismo de pesquisa Zing calcula as pontuações do documento com base na frequência, na sequência e no peso dos termos de pesquisa no documento.

    Pontuações do documento

    Os componentes de uma pontuação de documento para uma consulta de pesquisa são:
    • Frequência: a frequência com que os termos de pesquisa aparecem no documento.
    • Sequência: a frequência com que os termos de pesquisa aparecem na mesma ordem da consulta de pesquisa.
    • Peso: o peso do campo de origem no qual os termos de pesquisa aparecem.
    Figura 1. Cálculo de pontuação de documento de amostra
    Gráfico que mostra a frequência e a pontuação de sequência para a consulta de pesquisa de amostra e o documento.

    Pontos de frequência

    O Zing concede um ponto sempre que um termo de pesquisa aparece em qualquer lugar no documento. Por exemplo, ao pesquisar servidor de banco de dados distribuído, um documento que contém três vezes distribuído, cinco vezes banco de dados e um servidor 17 vezes teria 25 pontos de frequência.

    Para aumentar as pontuações de resultado da pesquisa de termos de pesquisa que aparecem com mais frequência em um documento, mas com menos frequência em um conjunto de documentos, você pode Pontuar termos de pesquisa por frequência inversa de documento (IDF). Quando o TF-IDF está habilitado, as pontuações do termo de pesquisa são calculadas multiplicando a pontuação de frequência do termo pela pontuação de frequência inversa do documento. Como a habilitação de TF-IDF aumenta o peso de termos de pesquisa menos comuns, os resultados da pesquisa dessa tabela têm mais probabilidade de serem relevantes. Por exemplo, ao pesquisar servidor de banco de dados distribuído, o termo distribuído poderá receber uma pontuação maior do que o servidor se aparecer com frequência em um documento, mas com menos frequência no conjunto de documentos como um todo.

    O Zing aplica um multiplicador a pontos de frequência com base no valor do atributo ts_weight para o campo no qual o termo de pesquisa aparece. Um campo com um peso de pontuação de pesquisa de texto de 30 (ts_weight=30) adicionaria 30 pontos para cada inclusão de um termo de pesquisa.

    Pontos de sequência

    O Zing concede a um documento mais pontos quando ele contém os termos de pesquisa na mesma ordem em que foram digitados. Quanto mais termos de pesquisa na sequência houver, exponencialmente maior se tornará a pontuação. O Zing concede pontos de sequência como 10^x, em que x é o número de termos de pesquisa que aparecem em sequência.

    No exemplo de pesquisa de servidor de banco de dados distribuído, o Zing concede a um documento 100 (10^2) pontos de sequência para cada vez que inclui o servidor de bancode dados de cadeia de caracteres de dois termos. Da mesma forma, o Zing concede a um documento 1000 (10^3) pontos de sequência sempre que inclui o servidor de banco de dados distribuídode cadeia de caracteres de três termos.

    O Zing aplica um multiplicador a pontos de sequência com base no valor do atributo ts_weight para o campo no qual a sequência aparece. Os pontos de sequência usam o cálculo (10^x * field ts_weight ).

    Ponderações de pontuação do campo

    O sistema eleva o peso de pontuação padrão de Knowledge números de registro, Knowledge descrições resumidas e metadados, números de registro de tarefa e descrições resumidas de tarefa. Os atributos padrão ts_weight para esses campos são os seguintes:
    • kb_knowledge.number = 50
    • kb_knowledge.short_description = 10
    • kb_knowledge.meta = 10
    • task.number = 50
    • task.short_description = 10

    Todos os outros campos têm um atributo padrão ts_weight de 1. O valor máximo de ponderação possível é 255.