Executar página de resultados

Austrália Habilitar IA

Release

australia

ft:locale

pt-BR

ft:publication_title

Austrália Habilitar IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Resultados da execução da avaliação do agente

Versão de lançamento: Australia

Atualizado 25 de mar. de 2026

4 min. de leitura

Saiba mais sobre execuções de avaliação agencial e o significado por trás das diferentes pontuações de avaliação na página de resultados da avaliação agencial.

Visão geral das avaliações do agente

As avaliações agenciais medem o quão bem os agentes de IA e fluxos de trabalho agentivos estão atingindo seus objetivos. Um modelo de serviço do Now LLM avalia o agente de IA ou o fluxo de trabalho agentivo com base nos logs de execução. A página Resultados de uma execução de avaliação mostra várias métricas e pontuações que medem a completude da tarefa e o uso da ferramenta.

Se você executar uma avaliação geral de conclusão de tarefa, a página Resultados mostrará as ações recomendadas para o agente de IA ou o fluxo de trabalho agentivo. As ações recomendadas fornecem sugestões de implantação ou melhoria para ajudar a verificar se os fluxos de trabalho agentivos implantados estão funcionando de acordo com seus padrões.

Depois de revisar os resultados da avaliação, você pode arquivar sua avaliação ou copiá-la para executar outra avaliação com os mesmos parâmetros e conjunto de dados.

Você pode exportar os resultados da avaliação como um relatório. O relatório é formatado como um arquivo .csv que inclui os sys_ids individuais dos registros de execução e as pontuações de métrica de cada um.

Para obter mais informações sobre o uso do agente de IA e outras análises, você pode revisar Painel de Análise do agente de IA em Estúdio de agentes de IA.

Visão geral dos resultados da avaliação

Para cada método de avaliação executado, a página Resultados exibe uma pontuação geral do fluxo de trabalho do agente com uma porcentagem de avaliações de registro bem-sucedidas e um rótulo Excelente, Bom, Moderado ou Ruim. Você pode mudar os limites de métrica para cada rótulo selecionando Personalizar limites de métrica .

Além dos resultados gerais de completude da tarefa, você pode revisar um resumo dos resultados das outras métricas.

Tabela 1. Resultados gerais da execução da avaliação de completude da tarefa
Rótulo	Descrição	Ação recomendada	Limite padrão
Excelente	As tarefas eram executadas consistentemente em um alto padrão. O fluxo de trabalho agentic ou agente de IA está funcionando bem.	Prossiga com confiança	90% a 100%
Bom	A maioria das tarefas foi realizada com sucesso, mas algumas inconsistências de desempenho sugerem áreas para melhoria.	Implante com cuidado	70%–89%
Moderado(a)	Um número significativo de tarefas não foi totalmente concluído. O desempenho está abaixo do nível desejado.	Investigue as causas raiz da conclusão ruim da tarefa	50%–69%
Ruim	O fluxo de trabalho do agentic não consegue concluir tarefas adequadamente. Problemas importantes estão presentes.	Não implante	0% a 49%

Pontuações de métrica de registro individual

As avaliações são executadas nas tabelas de log de execuções de fluxo de trabalho do agente. Cada registro é pontuado individualmente para cada plano de avaliação que você executa. As avaliações de registros individuais são pontuadas de acordo com as métricas a seguir.

Tabela 2. Pontuações gerais da métrica de registro de completude da tarefaA métrica de completude da tarefa geral avalia se um agente de IA conclui com sucesso sua tarefa atribuída. Ele avalia os logs de execução do agente, garantindo que todas as etapas necessárias foram executadas e que a tarefa foi lógica e efetivamente concluída.
Número	Pontuação	Descrição
3	Bem-sucedido	A tarefa principal foi totalmente concluída. Todas as subtarefas foram resolvidas e as etapas seguiram uma sequência lógica sem erros críticos.
2	Parcialmente bem-sucedido	A tarefa foi parcialmente concluída. Algumas subtarefas permanecem não resolvidas ou ineficiências afetaram o processo.
1	Sem sucesso	A tarefa não foi concluída. As subtarefas críticas foram abandonadas ou não resolvidas ou a execução falhou totalmente.

Tabela 3. Pontuações de métrica de registro de desempenho da ferramentaA métrica de avaliação de desempenho da ferramenta avalia a capacidade de um agente de IA de selecionar a ferramenta mais apropriada para cada etapa ao concluir uma tarefa.
Número	Pontuação	Descrição
1	Verdadeiro(a)	A ferramenta certa foi escolhida para a ação no plano.
0	Falso(a)	A ferramenta certa não foi escolhida.

Tabela 4. Pontuações de métrica de registros de chamada da ferramentaA métrica de avaliação de chamada da ferramenta avalia se um agente de IA constrói corretamente chamadas de ferramenta validando a precisão, a integridade e a formatação das entradas fornecidas.
Número	Pontuação	Descrição
1	Verdadeiro(a)	A integridade da chave de entrada, a exatidão do valor de entrada e a exatidão do formato de entrada são bem-sucedidas. Input key completeness: 1 - Verdadeiro - Todos os parâmetros obrigatórios estão presentes com correspondências de nome exatas e nenhum parâmetro inesperado está incluído. Input value correctness: 1 - Verdadeiro - Os valores de entrada da ferramenta estão mapeados corretamente. Input format correctness: 1 - Verdadeiro - As entradas da ferramenta estão no formato correto.
0	Falso(a)	Uma ou mais completude da chave de entrada, completude do valor de entrada ou completude do formato de entrada não foi bem-sucedida. Input key completeness: 0 - Falso - Um parâmetro obrigatório está ausente, seu nome não corresponde exatamente ou um parâmetro inesperado foi encontrado. Input value correctness: 0 - Falso - Os valores de entrada da ferramenta não estão mapeados corretamente. Input format correctness: 0 - Falso - As entradas da ferramenta não estão no formato correto.

Nota:

Os valores das submétricas são agregados usando um operador AND. Se qualquer valor for 0, toda a pontuação da métrica de chamada de registros da ferramenta será 0.