Cálculos e métricas de avaliação

  • Versão de lançamento: Zurich
  • Atualizado 3 de set. de 2025
  • 3 min. de leitura
  • Métricas em relação às quais as conversas são avaliadas e cálculo de pontuações ajustadas.

    Métricas

    A lista Selecionar métrica mostra todas as métricas em relação às quais cada conversa é avaliada para o intervalo de datas selecionado. Você pode filtrar a tendência de avaliação com base em cada métrica. As seguintes métricas estão disponíveis:
    Métrica Descrição
    Conclusão da solicitação Mede a capacidade do agente virtual de concluir solicitações do usuário identificando com precisão a intenção do usuário e reunindo todas as informações necessárias (preenchimento de slot).
    Precisão da intenção Mostra a capacidade do Virtual Agent de compreender as solicitações do usuário, resultando em respostas relevantes.
    Preenchimento de slot Mostra a capacidade do Virtual Agent de interpretar as respostas do usuário e extrair respostas estruturadas para as perguntas necessárias.
    Suavização (prevenção de deadlock) Verifica se o virtual agent responde dinamicamente, movendo a conversa para frente sem repetição.
    Retenção de contexto Mostra se o Virtual Agent consegue reter e usar as informações fornecidas durante a conversa, incluindo interpretação de solicitação e preenchimento de slot.
    Verdade (prevenção da alucinação) Mostra se o Virtual Agent gerou respostas verdadeiras baseadas na conversa, excluindo falhas de fabricação ou memória e compreensão.
    Concisão (prevenção de redundância) Verifica a capacidade do agente virtual de evitar respostas supérfluas ou detalhadas e genéricas, o que não contribui para a intenção principal da conversa.
    Coerência Verifica se há fluxo lógico claro, estrutura e organização das respostas do Virtual Agent.
    Satisfação do usuário Média ponderada de todas as outras métricas nas quais a conversa foi avaliada.
    Nota:
    Todas as métricas são classificadas em uma escala de 3 ou 5 e, finalmente, escaladas para 5.

    Cálculos

    Cálculo de desvios e pontuação ajustada:

    Para alinhar as pontuações de avaliação automática com o julgamento humano ao longo do tempo, um desvio é calculado e usado para produzir uma pontuação ajustada no nível de métrica.
    • Desvio Superior

      Condição: Se o número de pontuações rotuladas por humanos que são maiores do que as pontuações avaliadas automaticamente nos últimos 6 meses for maior do que 30.

      Cálculo: Os 90% principais desses casos são obtidos e a diferença (delta) entre a pontuação humana e a pontuação avaliada automaticamente é calculada. Este delta é o Desvio Superior.

    • Desvio Inferior

      Condição: Se o número de pontuações rotuladas por humanos que são inferiores às pontuações avaliadas automaticamente nos últimos 6 meses for maior que 30.

      Cálculo: Os 90% principais desses casos são obtidos e a diferença (delta) entre a pontuação humana e a pontuação avaliada automaticamente é calculada. Este delta é o Desvio Inferior.

    • Pontuação ajustada
      A Pontuação ajustada final é calculada com base na disponibilidade dos desvios.
      • Se pelo menos 30 avaliações distintas de desvios superiores e inferiores forem rotuladas para uma determinada métrica, a faixa de erro será calculada como SOMA (pontuação média de rotulagem - pontuação de LLM)/avaliações distintas. Esta faixa de erro é adicionada à pontuação de avaliação automática para obter a pontuação ajustada.
      • Se nenhum desvio estiver disponível, Pontuação ajustada será Pontuação de avaliação automática
    Cálculo da pontuação de satisfação do usuário de avaliação automática, pontuação de satisfação do usuário humano e desvio superior e inferior no nível de avaliação:
    • Pontuação de satisfação do usuário de avaliação automática: Para uma determinada avaliação, obtenha todas as pontuações de cada métrica gerada pelo LLM e calcule SOMA(pontuação da métrica * peso da métrica)/SOMA(pesos da métrica).
    • Pontuação de satisfação do usuário humano: Para uma determinada avaliação, se pelo menos uma métrica for rotulada, ela será considerada para calcular a pontuação de satisfação do usuário humano. Se rotulado, a pontuação de rótulo será usada ou a pontuação do LLM será usada. Calculado como SOMA (pontuação métrica * peso da métrica)/SOMA (pesos da métrica).
    • Lacuna: A lacuna é calculada como (Pontuação de satisfação do usuário humano - Pontuação de satisfação de avaliação automática).
    • Desvio superior: Se a lacuna for positiva e houver mais de 30 registros, a faixa de erro será calculada nos 90% principais por SOMA (lacuna positiva)/avaliações distintas. Esta faixa de erro é adicionada à pontuação de satisfação do usuário de avaliação automática.
    • Desvio inferior: Se a lacuna for negativa e houver mais de 30 registros, a faixa de erro será calculada nos 90% principais por SOMA (lacuna negativa)/avaliações distintas. Esta faixa de erro é adicionada à pontuação de satisfação do usuário de avaliação automática.
    • A pontuação de satisfação do usuário ajustada é calculada como SOMA (lacuna)/Avaliações distintas.
    Nota:
    • O avaliador fornece pontuação agregada por bate-papo, mesmo se houver várias solicitações diferentes feitas pelo usuário.
    • Os indicadores do Performance Analytics são usados para calcular a pontuação média ao longo do tempo. Se você executar trabalhos em lote em dados históricos, pela definição de indicadores do Performance Analytics, essas avaliações serão contadas na data de avaliação em pontuações agregadas e não contadas para pontuações na data real do bate-papo.