Referência para avaliações agentivas

  • Versão de lançamento: Australia
  • Atualizado 18 de mar. de 2026
  • 1 min. de leitura
  • Encontre material de referência técnica para funções, métricas e formatos de saída de avaliações agenciais.

    Métricas disponíveis

    Tabela 1. Métricas padrão disponíveis

    Métrica

    O que ele mede

    Verdade básica necessária

    Conclusão da tarefa

    Se o ativo de IA agentivo atende totalmente à necessidade do usuário.

    Opcional

    Precisão da resposta

    Se a resposta do ativo de IA agentivo é factualmente precisa

    Recomendado

    Agrupamento

    Se a resposta do ativo de IA agentivo está fundamentada no contexto específico da tarefa

    Não

    Coerência

    Se a resposta do ativo de IA agentivo está logicamente estruturada e clara

    Não

    Precisão do uso da ferramenta

    Se o ativo de IA agentivo selecionou e usou a ferramenta correta para executar suas tarefas

    Opcional

    Adesão ao objetivo

    Se o ativo de IA agentivo permaneceu dentro do escopo e das instruções definidas

    Não

    Tipos de problema

    Os problemas são divididos por comportamento. Cada métrica tem seus próprios problemas identificados separadamente.

    Tabela 2. Categorias de ocorrências

    Categoria

    Comportamento do ativo de IA agential

    Resposta incompleta

    A resposta falhou ao lidar com a solicitação completa do usuário

    Erro factual

    A resposta continha conteúdo que não está correto

    Alucinação

    A resposta continha conteúdo não fundamentado no contexto específico da solicitação

    Saída incoerente

    A resposta foi desorganizada ou difícil de entender

    Uso incorreto da ferramenta

    A ferramenta errada foi selecionada ou passou parâmetros incorretos para uma ferramenta

    Violação de escopo

    Respondeu a uma solicitação fora do escopo operacional definido

    Requisitos de dados

    Tabela 3. Requisitos de dados para conjuntos de dados em avaliações agenciais

    Requisito

    Descrição

    Casos de teste mínimos

    Um número mínimo de casos de teste é necessário por execução. As métricas específicas que você está usando para a execução podem ter seus próprios casos de teste mínimos. Certifique-se de que seu conjunto de dados atenda aos requisitos de todas as métricas.

    Formatos compatíveis

    CSV e JSON estruturado são compatíveis.

    Campo de verdade básica

    Se você estiver usando uma verdade básica, ela deve ser fornecida como um campo separado no conjunto de dados. O campo de verdade do terreno deve ser alinhado a cada caso de teste individualmente.

    Representatividade de dados

    Os conjuntos de dados devem refletir todas as tarefas que o agente de IA ou o fluxo de trabalho agentivo processará. Inclua casos de borda e cenários propensos a falhas para ajudar a garantir que você esteja testando em cenários comuns do mundo real.