Referência para avaliações agentivas
Encontre material de referência técnica para funções, métricas e formatos de saída de avaliações agenciais.
Métricas disponíveis
|
Métrica |
O que ele mede |
Verdade básica necessária |
|---|---|---|
|
Conclusão da tarefa |
Se o ativo de IA agentivo atende totalmente à necessidade do usuário. |
Opcional |
|
Precisão da resposta |
Se a resposta do ativo de IA agentivo é factualmente precisa |
Recomendado |
|
Agrupamento |
Se a resposta do ativo de IA agentivo está fundamentada no contexto específico da tarefa |
Não |
|
Coerência |
Se a resposta do ativo de IA agentivo está logicamente estruturada e clara |
Não |
|
Precisão do uso da ferramenta |
Se o ativo de IA agentivo selecionou e usou a ferramenta correta para executar suas tarefas |
Opcional |
|
Adesão ao objetivo |
Se o ativo de IA agentivo permaneceu dentro do escopo e das instruções definidas |
Não |
Tipos de problema
Os problemas são divididos por comportamento. Cada métrica tem seus próprios problemas identificados separadamente.
|
Categoria |
Comportamento do ativo de IA agential |
|---|---|
|
Resposta incompleta |
A resposta falhou ao lidar com a solicitação completa do usuário |
|
Erro factual |
A resposta continha conteúdo que não está correto |
|
Alucinação |
A resposta continha conteúdo não fundamentado no contexto específico da solicitação |
|
Saída incoerente |
A resposta foi desorganizada ou difícil de entender |
|
Uso incorreto da ferramenta |
A ferramenta errada foi selecionada ou passou parâmetros incorretos para uma ferramenta |
|
Violação de escopo |
Respondeu a uma solicitação fora do escopo operacional definido |
Requisitos de dados
|
Requisito |
Descrição |
|---|---|
|
Casos de teste mínimos |
Um número mínimo de casos de teste é necessário por execução. As métricas específicas que você está usando para a execução podem ter seus próprios casos de teste mínimos. Certifique-se de que seu conjunto de dados atenda aos requisitos de todas as métricas. |
|
Formatos compatíveis |
CSV e JSON estruturado são compatíveis. |
|
Campo de verdade básica |
Se você estiver usando uma verdade básica, ela deve ser fornecida como um campo separado no conjunto de dados. O campo de verdade do terreno deve ser alinhado a cada caso de teste individualmente. |
|
Representatividade de dados |
Os conjuntos de dados devem refletir todas as tarefas que o agente de IA ou o fluxo de trabalho agentivo processará. Inclua casos de borda e cenários propensos a falhas para ajudar a garantir que você esteja testando em cenários comuns do mundo real. |