Referência

Austrália Habilitar IA

Release

australia

ft:locale

pt-BR

ft:publication_title

Austrália Habilitar IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Referência para avaliações agentivas

Versão de lançamento: Australia

Atualizado 18 de mar. de 2026

1 min. de leitura

Encontre material de referência técnica para funções, métricas e formatos de saída de avaliações agenciais.

Tabela 1. Métricas padrão disponíveis
Métrica	O que ele mede	Verdade básica necessária
Conclusão da tarefa	Se o ativo de IA agentivo atende totalmente à necessidade do usuário.	Opcional
Precisão da resposta	Se a resposta do ativo de IA agentivo é factualmente precisa	Recomendado
Agrupamento	Se a resposta do ativo de IA agentivo está fundamentada no contexto específico da tarefa	Não
Coerência	Se a resposta do ativo de IA agentivo está logicamente estruturada e clara	Não
Precisão do uso da ferramenta	Se o ativo de IA agentivo selecionou e usou a ferramenta correta para executar suas tarefas	Opcional
Adesão ao objetivo	Se o ativo de IA agentivo permaneceu dentro do escopo e das instruções definidas	Não

Os problemas são divididos por comportamento. Cada métrica tem seus próprios problemas identificados separadamente.

Tabela 2. Categorias de ocorrências
Categoria	Comportamento do ativo de IA agential
Resposta incompleta	A resposta falhou ao lidar com a solicitação completa do usuário
Erro factual	A resposta continha conteúdo que não está correto
Alucinação	A resposta continha conteúdo não fundamentado no contexto específico da solicitação
Saída incoerente	A resposta foi desorganizada ou difícil de entender
Uso incorreto da ferramenta	A ferramenta errada foi selecionada ou passou parâmetros incorretos para uma ferramenta
Violação de escopo	Respondeu a uma solicitação fora do escopo operacional definido

Tabela 3. Requisitos de dados para conjuntos de dados em avaliações agenciais
Requisito	Descrição
Casos de teste mínimos	Um número mínimo de casos de teste é necessário por execução. As métricas específicas que você está usando para a execução podem ter seus próprios casos de teste mínimos. Certifique-se de que seu conjunto de dados atenda aos requisitos de todas as métricas.
Formatos compatíveis	CSV e JSON estruturado são compatíveis.
Campo de verdade básica	Se você estiver usando uma verdade básica, ela deve ser fornecida como um campo separado no conjunto de dados. O campo de verdade do terreno deve ser alinhado a cada caso de teste individualmente.
Representatividade de dados	Os conjuntos de dados devem refletir todas as tarefas que o agente de IA ou o fluxo de trabalho agentivo processará. Inclua casos de borda e cenários propensos a falhas para ajudar a garantir que você esteja testando em cenários comuns do mundo real.