Resultados da execução da avaliação do agente

Zurich Habilitar IA

Release

zurich

ft:locale

pt-BR

ft:publication_title

Zurich Habilitar IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Resultados da execução da avaliação do agente

Versão de lançamento: Zurich

Atualizado 31 de jul. de 2025

3 min. de leitura

Saiba mais sobre execuções de avaliação agencial e o significado por trás das diferentes pontuações de avaliação na página de resultados da avaliação agencial.

Visão geral das avaliações do agente

As avaliações do agente medem o quão bem os fluxos de trabalho do agente estão atingindo seus objetivos. Um modelo de serviço Now LLM avalia o fluxo de trabalho do agente com base nos logs de execução desse fluxo de trabalho do agente. A página Resultados de uma execução de avaliação mostra várias métricas e pontuações que medem a completude da tarefa e o uso da ferramenta.

Se você executar uma avaliação de conclusão de tarefa geral, a página Resultados mostrará as ações recomendadas para o fluxo de trabalho. As ações recomendadas fornecem sugestões de implantação ou melhoria para ajudar a garantir que os fluxos de trabalho do agente implantados estejam funcionando de acordo com seus padrões.

Para obter mais informações sobre o uso do agente de IA e outras análises, você pode revisar Painel de Análise do agente de IA em Estúdio de agentes de IA.

Visão geral dos resultados da avaliação

Para cada método de avaliação executado, a página Resultados exibe uma pontuação geral do fluxo de trabalho do agente com uma porcentagem de avaliações de registro bem-sucedidas e um rótulo Excelente, Bom, Moderado ou Ruim. Você pode mudar os limites de métrica para cada rótulo selecionando Personalizar limites de métrica .

Tabela 1. Resultados gerais da execução da avaliação de completude da tarefa
Rótulo	Descrição	Ação recomendada	Limite padrão
Excelente	As tarefas eram executadas consistentemente em um alto padrão. O fluxo de trabalho do agentic está funcionando bem.	Prossiga com confiança	90%–100%
Bom	A maioria das tarefas foi realizada com sucesso, mas algumas inconsistências de desempenho sugerem áreas para melhoria.	Implante com cuidado	70%–89%
Moderado	Um número significativo de tarefas não foi totalmente concluído. O desempenho está abaixo do nível desejado.	Investigue as causas raiz da conclusão ruim da tarefa	50%–69%
Ruim	O fluxo de trabalho do agentic não consegue concluir tarefas adequadamente. Problemas importantes estão presentes.	Não implante	0%–49%

Pontuações de métrica de registro individual

As avaliações são executadas nas tabelas de log de execuções de fluxo de trabalho do agente. Cada registro é pontuado individualmente para cada plano de avaliação que você executa. As avaliações de registros individuais são pontuadas de acordo com as métricas a seguir.

Tabela 2. Pontuações gerais da métrica de registro de completude da tarefaA métrica de completude da tarefa geral avalia se um agente de IA conclui com sucesso sua tarefa atribuída. Ele avalia os logs de execução do agente, garantindo que todas as etapas necessárias foram executadas e que a tarefa foi lógica e efetivamente concluída.
Número	Pontuação	Descrição
3	Bem-sucedido	A tarefa principal foi totalmente concluída. Todas as subtarefas foram resolvidas e as etapas seguiram uma sequência lógica sem erros críticos.
2	Parcialmente bem-sucedido	A tarefa foi parcialmente concluída. Algumas subtarefas permanecem não resolvidas ou ineficiências afetaram o processo.
1	Sem sucesso	A tarefa não foi concluída. As subtarefas críticas foram abandonadas ou não resolvidas ou a execução falhou totalmente.

Tabela 3. Pontuações de métrica de registro de desempenho da ferramentaA métrica de avaliação de desempenho da ferramenta avalia a capacidade de um agente de IA de selecionar a ferramenta mais apropriada para cada etapa ao concluir uma tarefa.
Número	Pontuação	Descrição
1	Verdadeiro(a)	A ferramenta certa foi escolhida para a ação no plano.
0	Falso(a)	A ferramenta certa não foi escolhida.

Tabela 4. Pontuações de métrica de registros de chamada da ferramentaA métrica de avaliação de chamada da ferramenta avalia se um agente de IA constrói corretamente chamadas de ferramenta validando a precisão, a integridade e a formatação das entradas fornecidas.
Número	Pontuação	Descrição
1	Verdadeiro(a)	Completude da chave de entrada, completude do valor de entrada e completude do formato de entrada foram bem-sucedidas.
0	Falso(a)	Uma ou mais completude da chave de entrada, completude do valor de entrada ou completude do formato de entrada não foi bem-sucedida.