Resultados da execução da avaliação do agente
Saiba mais sobre execuções de avaliação agencial e o significado por trás das diferentes pontuações de avaliação na página de resultados da avaliação agencial.
Visão geral das avaliações do agente
As avaliações agenciais medem o quão bem os agentes de IA e fluxos de trabalho agentivos estão atingindo seus objetivos. Um modelo de serviço do Now LLM avalia o agente de IA ou o fluxo de trabalho agentivo com base nos logs de execução. A página Resultados de uma execução de avaliação mostra várias métricas e pontuações que medem a completude da tarefa e o uso da ferramenta.
Se você executar uma avaliação geral de conclusão de tarefa, a página Resultados mostrará as ações recomendadas para o agente de IA ou o fluxo de trabalho agentivo. As ações recomendadas fornecem sugestões de implantação ou melhoria para ajudar a verificar se os fluxos de trabalho agentivos implantados estão funcionando de acordo com seus padrões.
Depois de revisar os resultados da avaliação, você pode arquivar sua avaliação ou copiá-la para executar outra avaliação com os mesmos parâmetros e conjunto de dados.
Você pode exportar os resultados da avaliação como um relatório. O relatório é formatado como um arquivo .csv que inclui os sys_ids individuais dos registros de execução e as pontuações de métrica de cada um.
Para obter mais informações sobre o uso do agente de IA e outras análises, você pode revisar Painel de Análise do agente de IA em Estúdio de agentes de IA.
Visão geral dos resultados da avaliação
Para cada método de avaliação executado, a página Resultados exibe uma pontuação geral do fluxo de trabalho do agente com uma porcentagem de avaliações de registro bem-sucedidas e um rótulo Excelente, Bom, Moderado ou Ruim. Você pode mudar os limites de métrica para cada rótulo selecionando Personalizar limites de métrica .
Além dos resultados gerais de completude da tarefa, você pode revisar um resumo dos resultados das outras métricas.
|
Rótulo |
Descrição |
Ação recomendada |
Limite padrão |
|---|---|---|---|
|
Excelente |
As tarefas eram executadas consistentemente em um alto padrão. O fluxo de trabalho agentic ou agente de IA está funcionando bem. |
Prossiga com confiança |
90% a 100% |
|
Bom |
A maioria das tarefas foi realizada com sucesso, mas algumas inconsistências de desempenho sugerem áreas para melhoria. |
Implante com cuidado |
70%–89% |
|
Moderado(a) |
Um número significativo de tarefas não foi totalmente concluído. O desempenho está abaixo do nível desejado. |
Investigue as causas raiz da conclusão ruim da tarefa |
50%–69% |
|
Ruim |
O fluxo de trabalho do agentic não consegue concluir tarefas adequadamente. Problemas importantes estão presentes. |
Não implante |
0% a 49% |
Pontuações de métrica de registro individual
As avaliações são executadas nas tabelas de log de execuções de fluxo de trabalho do agente. Cada registro é pontuado individualmente para cada plano de avaliação que você executa. As avaliações de registros individuais são pontuadas de acordo com as métricas a seguir.
|
Número |
Pontuação |
Descrição |
|---|---|---|
|
3 |
Bem-sucedido |
A tarefa principal foi totalmente concluída. Todas as subtarefas foram resolvidas e as etapas seguiram uma sequência lógica sem erros críticos. |
|
2 |
Parcialmente bem-sucedido |
A tarefa foi parcialmente concluída. Algumas subtarefas permanecem não resolvidas ou ineficiências afetaram o processo. |
|
1 |
Sem sucesso |
A tarefa não foi concluída. As subtarefas críticas foram abandonadas ou não resolvidas ou a execução falhou totalmente. |
|
Número |
Pontuação |
Descrição |
|---|---|---|
|
1 |
Verdadeiro(a) |
A ferramenta certa foi escolhida para a ação no plano. |
|
0 |
Falso(a) |
A ferramenta certa não foi escolhida. |
|
Número |
Pontuação |
Descrição |
|---|---|---|
|
1 |
Verdadeiro(a) |
A integridade da chave de entrada, a exatidão do valor de entrada e a exatidão do formato de entrada são bem-sucedidas.
|
|
0 |
Falso(a) |
Uma ou mais completude da chave de entrada, completude do valor de entrada ou completude do formato de entrada não foi bem-sucedida.
|