Resultados da execução da avaliação do agente

  • Versão de lançamento: Australia
  • Atualizado 25 de mar. de 2026
  • 4 min. de leitura
  • Saiba mais sobre execuções de avaliação agencial e o significado por trás das diferentes pontuações de avaliação na página de resultados da avaliação agencial.

    Visão geral das avaliações do agente

    As avaliações agenciais medem o quão bem os agentes de IA e fluxos de trabalho agentivos estão atingindo seus objetivos. Um modelo de serviço do Now LLM avalia o agente de IA ou o fluxo de trabalho agentivo com base nos logs de execução. A página Resultados de uma execução de avaliação mostra várias métricas e pontuações que medem a completude da tarefa e o uso da ferramenta.

    Se você executar uma avaliação geral de conclusão de tarefa, a página Resultados mostrará as ações recomendadas para o agente de IA ou o fluxo de trabalho agentivo. As ações recomendadas fornecem sugestões de implantação ou melhoria para ajudar a verificar se os fluxos de trabalho agentivos implantados estão funcionando de acordo com seus padrões.

    Depois de revisar os resultados da avaliação, você pode arquivar sua avaliação ou copiá-la para executar outra avaliação com os mesmos parâmetros e conjunto de dados.

    Você pode exportar os resultados da avaliação como um relatório. O relatório é formatado como um arquivo .csv que inclui os sys_ids individuais dos registros de execução e as pontuações de métrica de cada um.

    Para obter mais informações sobre o uso do agente de IA e outras análises, você pode revisar Painel de Análise do agente de IA em Estúdio de agentes de IA.

    Visão geral dos resultados da avaliação

    Para cada método de avaliação executado, a página Resultados exibe uma pontuação geral do fluxo de trabalho do agente com uma porcentagem de avaliações de registro bem-sucedidas e um rótulo Excelente, Bom, Moderado ou Ruim. Você pode mudar os limites de métrica para cada rótulo selecionando Personalizar limites de métrica .

    Além dos resultados gerais de completude da tarefa, você pode revisar um resumo dos resultados das outras métricas.

    Tabela 1. Resultados gerais da execução da avaliação de completude da tarefa

    Rótulo

    Descrição

    Ação recomendada

    Limite padrão

    Excelente

    As tarefas eram executadas consistentemente em um alto padrão. O fluxo de trabalho agentic ou agente de IA está funcionando bem.

    Prossiga com confiança

    90% a 100%

    Bom

    A maioria das tarefas foi realizada com sucesso, mas algumas inconsistências de desempenho sugerem áreas para melhoria.

    Implante com cuidado

    70%–89%

    Moderado(a)

    Um número significativo de tarefas não foi totalmente concluído. O desempenho está abaixo do nível desejado.

    Investigue as causas raiz da conclusão ruim da tarefa

    50%–69%

    Ruim

    O fluxo de trabalho do agentic não consegue concluir tarefas adequadamente. Problemas importantes estão presentes.

    Não implante

    0% a 49%

    Pontuações de métrica de registro individual

    As avaliações são executadas nas tabelas de log de execuções de fluxo de trabalho do agente. Cada registro é pontuado individualmente para cada plano de avaliação que você executa. As avaliações de registros individuais são pontuadas de acordo com as métricas a seguir.

    Tabela 2. Pontuações gerais da métrica de registro de completude da tarefaA métrica de completude da tarefa geral avalia se um agente de IA conclui com sucesso sua tarefa atribuída. Ele avalia os logs de execução do agente, garantindo que todas as etapas necessárias foram executadas e que a tarefa foi lógica e efetivamente concluída.

    Número

    Pontuação

    Descrição

    3

    Bem-sucedido

    A tarefa principal foi totalmente concluída. Todas as subtarefas foram resolvidas e as etapas seguiram uma sequência lógica sem erros críticos.

    2

    Parcialmente bem-sucedido

    A tarefa foi parcialmente concluída. Algumas subtarefas permanecem não resolvidas ou ineficiências afetaram o processo.

    1

    Sem sucesso

    A tarefa não foi concluída. As subtarefas críticas foram abandonadas ou não resolvidas ou a execução falhou totalmente.

    Tabela 3. Pontuações de métrica de registro de desempenho da ferramentaA métrica de avaliação de desempenho da ferramenta avalia a capacidade de um agente de IA de selecionar a ferramenta mais apropriada para cada etapa ao concluir uma tarefa.

    Número

    Pontuação

    Descrição

    1

    Verdadeiro(a)

    A ferramenta certa foi escolhida para a ação no plano.

    0

    Falso(a)

    A ferramenta certa não foi escolhida.

    Tabela 4. Pontuações de métrica de registros de chamada da ferramentaA métrica de avaliação de chamada da ferramenta avalia se um agente de IA constrói corretamente chamadas de ferramenta validando a precisão, a integridade e a formatação das entradas fornecidas.

    Número

    Pontuação

    Descrição

    1

    Verdadeiro(a)

    A integridade da chave de entrada, a exatidão do valor de entrada e a exatidão do formato de entrada são bem-sucedidas.

    • Input key completeness: 1 - Verdadeiro - Todos os parâmetros obrigatórios estão presentes com correspondências de nome exatas e nenhum parâmetro inesperado está incluído.
    • Input value correctness: 1 - Verdadeiro - Os valores de entrada da ferramenta estão mapeados corretamente.
    • Input format correctness: 1 - Verdadeiro - As entradas da ferramenta estão no formato correto.

    0

    Falso(a)

    Uma ou mais completude da chave de entrada, completude do valor de entrada ou completude do formato de entrada não foi bem-sucedida.

    • Input key completeness: 0 - Falso - Um parâmetro obrigatório está ausente, seu nome não corresponde exatamente ou um parâmetro inesperado foi encontrado.
    • Input value correctness: 0 - Falso - Os valores de entrada da ferramenta não estão mapeados corretamente.
    • Input format correctness: 0 - Falso - As entradas da ferramenta não estão no formato correto.
    Nota:
    Os valores das submétricas são agregados usando um operador AND. Se qualquer valor for 0, toda a pontuação da métrica de chamada de registros da ferramenta será 0.