Resultados da execução da avaliação do agente
Saiba mais sobre execuções de avaliação agencial e o significado por trás das diferentes pontuações de avaliação na página de resultados da avaliação agencial.
Visão geral das avaliações do agente
As avaliações do agente medem o quão bem os fluxos de trabalho do agente estão atingindo seus objetivos. Um modelo de serviço Now LLM avalia o fluxo de trabalho do agente com base nos logs de execução desse fluxo de trabalho do agente. A página Resultados de uma execução de avaliação mostra várias métricas e pontuações que medem a completude da tarefa e o uso da ferramenta.
Se você executar uma avaliação de conclusão de tarefa geral, a página Resultados mostrará as ações recomendadas para o fluxo de trabalho. As ações recomendadas fornecem sugestões de implantação ou melhoria para ajudar a garantir que os fluxos de trabalho do agente implantados estejam funcionando de acordo com seus padrões.
Para obter mais informações sobre o uso do agente de IA e outras análises, você pode revisar Painel de Análise do agente de IA em Estúdio de agentes de IA.
Visão geral dos resultados da avaliação
Para cada método de avaliação executado, a página Resultados exibe uma pontuação geral do fluxo de trabalho do agente com uma porcentagem de avaliações de registro bem-sucedidas e um rótulo Excelente, Bom, Moderado ou Ruim. Você pode mudar os limites de métrica para cada rótulo selecionando Personalizar limites de métrica .
|
Rótulo |
Descrição |
Ação recomendada |
Limite padrão |
|---|---|---|---|
|
Excelente |
As tarefas eram executadas consistentemente em um alto padrão. O fluxo de trabalho do agentic está funcionando bem. |
Prossiga com confiança |
90%–100% |
|
Bom |
A maioria das tarefas foi realizada com sucesso, mas algumas inconsistências de desempenho sugerem áreas para melhoria. |
Implante com cuidado |
70%–89% |
|
Moderado |
Um número significativo de tarefas não foi totalmente concluído. O desempenho está abaixo do nível desejado. |
Investigue as causas raiz da conclusão ruim da tarefa |
50%–69% |
|
Ruim |
O fluxo de trabalho do agentic não consegue concluir tarefas adequadamente. Problemas importantes estão presentes. |
Não implante |
0%–49% |
Pontuações de métrica de registro individual
As avaliações são executadas nas tabelas de log de execuções de fluxo de trabalho do agente. Cada registro é pontuado individualmente para cada plano de avaliação que você executa. As avaliações de registros individuais são pontuadas de acordo com as métricas a seguir.
|
Número |
Pontuação |
Descrição |
|---|---|---|
|
3 |
Bem-sucedido |
A tarefa principal foi totalmente concluída. Todas as subtarefas foram resolvidas e as etapas seguiram uma sequência lógica sem erros críticos. |
|
2 |
Parcialmente bem-sucedido |
A tarefa foi parcialmente concluída. Algumas subtarefas permanecem não resolvidas ou ineficiências afetaram o processo. |
|
1 |
Sem sucesso |
A tarefa não foi concluída. As subtarefas críticas foram abandonadas ou não resolvidas ou a execução falhou totalmente. |
|
Número |
Pontuação |
Descrição |
|---|---|---|
|
1 |
Verdadeiro(a) |
A ferramenta certa foi escolhida para a ação no plano. |
|
0 |
Falso(a) |
A ferramenta certa não foi escolhida. |
|
Número |
Pontuação |
Descrição |
|---|---|---|
|
1 |
Verdadeiro(a) |
Completude da chave de entrada, completude do valor de entrada e completude do formato de entrada foram bem-sucedidas. |
|
0 |
Falso(a) |
Uma ou mais completude da chave de entrada, completude do valor de entrada ou completude do formato de entrada não foi bem-sucedida. |