Resultados da execução da avaliação do agente

  • Versão de lançamento: Zurich
  • Atualizado 31 de jul. de 2025
  • 3 min. de leitura
  • Saiba mais sobre execuções de avaliação agencial e o significado por trás das diferentes pontuações de avaliação na página de resultados da avaliação agencial.

    Visão geral das avaliações do agente

    As avaliações do agente medem o quão bem os fluxos de trabalho do agente estão atingindo seus objetivos. Um modelo de serviço Now LLM avalia o fluxo de trabalho do agente com base nos logs de execução desse fluxo de trabalho do agente. A página Resultados de uma execução de avaliação mostra várias métricas e pontuações que medem a completude da tarefa e o uso da ferramenta.

    Se você executar uma avaliação de conclusão de tarefa geral, a página Resultados mostrará as ações recomendadas para o fluxo de trabalho. As ações recomendadas fornecem sugestões de implantação ou melhoria para ajudar a garantir que os fluxos de trabalho do agente implantados estejam funcionando de acordo com seus padrões.

    Para obter mais informações sobre o uso do agente de IA e outras análises, você pode revisar Painel de Análise do agente de IA em Estúdio de agentes de IA.

    Visão geral dos resultados da avaliação

    Para cada método de avaliação executado, a página Resultados exibe uma pontuação geral do fluxo de trabalho do agente com uma porcentagem de avaliações de registro bem-sucedidas e um rótulo Excelente, Bom, Moderado ou Ruim. Você pode mudar os limites de métrica para cada rótulo selecionando Personalizar limites de métrica .

    Tabela 1. Resultados gerais da execução da avaliação de completude da tarefa

    Rótulo

    Descrição

    Ação recomendada

    Limite padrão

    Excelente

    As tarefas eram executadas consistentemente em um alto padrão. O fluxo de trabalho do agentic está funcionando bem.

    Prossiga com confiança

    90%–100%

    Bom

    A maioria das tarefas foi realizada com sucesso, mas algumas inconsistências de desempenho sugerem áreas para melhoria.

    Implante com cuidado

    70%–89%

    Moderado

    Um número significativo de tarefas não foi totalmente concluído. O desempenho está abaixo do nível desejado.

    Investigue as causas raiz da conclusão ruim da tarefa

    50%–69%

    Ruim

    O fluxo de trabalho do agentic não consegue concluir tarefas adequadamente. Problemas importantes estão presentes.

    Não implante

    0%–49%

    Pontuações de métrica de registro individual

    As avaliações são executadas nas tabelas de log de execuções de fluxo de trabalho do agente. Cada registro é pontuado individualmente para cada plano de avaliação que você executa. As avaliações de registros individuais são pontuadas de acordo com as métricas a seguir.

    Tabela 2. Pontuações gerais da métrica de registro de completude da tarefaA métrica de completude da tarefa geral avalia se um agente de IA conclui com sucesso sua tarefa atribuída. Ele avalia os logs de execução do agente, garantindo que todas as etapas necessárias foram executadas e que a tarefa foi lógica e efetivamente concluída.

    Número

    Pontuação

    Descrição

    3

    Bem-sucedido

    A tarefa principal foi totalmente concluída. Todas as subtarefas foram resolvidas e as etapas seguiram uma sequência lógica sem erros críticos.

    2

    Parcialmente bem-sucedido

    A tarefa foi parcialmente concluída. Algumas subtarefas permanecem não resolvidas ou ineficiências afetaram o processo.

    1

    Sem sucesso

    A tarefa não foi concluída. As subtarefas críticas foram abandonadas ou não resolvidas ou a execução falhou totalmente.

    Tabela 3. Pontuações de métrica de registro de desempenho da ferramentaA métrica de avaliação de desempenho da ferramenta avalia a capacidade de um agente de IA de selecionar a ferramenta mais apropriada para cada etapa ao concluir uma tarefa.

    Número

    Pontuação

    Descrição

    1

    Verdadeiro(a)

    A ferramenta certa foi escolhida para a ação no plano.

    0

    Falso(a)

    A ferramenta certa não foi escolhida.

    Tabela 4. Pontuações de métrica de registros de chamada da ferramentaA métrica de avaliação de chamada da ferramenta avalia se um agente de IA constrói corretamente chamadas de ferramenta validando a precisão, a integridade e a formatação das entradas fornecidas.

    Número

    Pontuação

    Descrição

    1

    Verdadeiro(a)

    Completude da chave de entrada, completude do valor de entrada e completude do formato de entrada foram bem-sucedidas.

    0

    Falso(a)

    Uma ou mais completude da chave de entrada, completude do valor de entrada ou completude do formato de entrada não foi bem-sucedida.