Diretrizes para avaliações

Austrália Habilitar IA

Release

australia

ft:locale

pt-BR

ft:publication_title

Austrália Habilitar IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Diretrizes gerais para avaliação de ativos de IA agentivo

Versão de lançamento: Australia

Atualizado 31 de jul. de 2025

5 min. de leitura

Saiba mais sobre execuções de avaliação agentivo e diferentes recomendações para avaliar seus ativos de IA agentivo em relação a conjuntos de dados para verificar a conclusão, o desempenho e a execução da ferramenta.

Visão geral das execuções de avaliação do agente

As avaliações agentivas ajudam a verificar se seus ativos de IA agential têm o desempenho esperado em diferentes cenários e conjuntos de dados. A avaliação regular ajuda a manter a qualidade e a identificar áreas para melhoria à medida que você desenvolve seus ativos de IA agentivo.

O processo de avaliação usa testes automatizados para medir o desempenho de seus ativos de IA agentivo. As métricas para avaliação incluem concluir tarefas, executar ferramentas corretamente e manter padrões de desempenho. Você também pode criar suas próprias métricas personalizadas para avaliar respostas e tarefas de ativos de IA agentivo de outras maneiras.

Quando executar avaliações de agentes

Execute avaliações agenciais em pontos-chave do ciclo de desenvolvimento e manutenção para verificar o desempenho e detectar problemas com antecedência.

Execute depois de testar manualmente a execução básica: Antes de executar uma avaliação automatizada, teste manualmente a execução de um Agente de IA ou fluxo de trabalho agentivo . O teste manual ajuda a identificar problemas óbvios e a verificar se a funcionalidade básica funciona antes de investir tempo na avaliação automatizada.
Execute avaliações agenciais quando fizer mudanças significativas: Depois de fazer atualizações no fluxo de trabalho agentivo, execute uma execução de avaliação agentivo para rastrear a eficácia da nova versão. Isso inclui mudanças nos prompts e nas configurações da ferramenta que podem afetar o desempenho.
Execute avaliações antes de implantar na produção: Avalie seus ativos de IA agentivo em um ambiente de teste antes de implantá-los na produção. Isso ajuda a verificar se as mudanças funcionam corretamente e a manter os níveis de desempenho esperados.
Execute avaliações periódicas para monitoramento contínuo: Agende execuções de avaliação regulares para monitorar o desempenho contínuo de seus ativos de IA agentivo. Isso ajuda a detectar a degradação do desempenho ao longo do tempo e garante qualidade consistente.
Execute avaliações após as mudanças na fonte de dados: Quando as fontes de dados ou esquemas subjacentes mudarem, execute avaliações para verificar se seus ativos de IA agentivo continuam a funcionar corretamente com a nova estrutura de dados.

Escolha de um método de avaliação

Selecione métodos de avaliação com base em quais aspectos do desempenho do ativo de IA agentivo você deseja medir. Diferentes métodos fornecem informações sobre diferentes aspectos da funcionalidade.

Revise as opções do método de avaliação: A configuração assistida de avaliação agentic fornece informações sobre cada método de avaliação, incluindo o que eles estão medindo e como funcionam. Você também pode revisar as perguntas comuns na barra lateral para obter respostas sobre as métricas disponíveis. Reserve um tempo para entender cada método antes de selecionar quais usar.
Use vários métodos de avaliação de uma só vez: A escolha de vários métodos de avaliação pode fornecer uma imagem geral melhor do desempenho do ativo de IA agentivo. Diferentes métodos medem aspectos diferentes, como taxas de conclusão de tarefas, precisão de resposta e sucesso na execução da ferramenta.
Considere métricas de conclusão de tarefa para validação de fluxo de trabalho: As métricas de conclusão de tarefas ajudam a verificar se os fluxos de trabalho agentivos concluem com sucesso as tarefas pretendidas e validam a funcionalidade de fluxo de trabalho de ponta a ponta.
Aplique métricas de execução da ferramenta para validação técnica: As métricas de execução da ferramenta verificam se seus ativos de IA agentivo usam corretamente as ferramentas e APIs configuradas para acessar. Este método ajuda a garantir que as integrações funcionem conforme o esperado.

Criando um conjunto de dados

Crie conjuntos de dados direcionados que representem os cenários e os dados que seus ativos de IA agentivo encontrarão na produção. Conjuntos de dados bem projetados fornecem resultados de avaliação mais significativos.

Use filtros para direcionar os dados certos: Adicione filtros aos logs de execução para controlar exatamente o que você está medindo seu fluxo de trabalho do agentic. Você pode selecionar Visualização para ver uma lista de registros. Você também pode usar as caixas de seleção para selecionar registros individuais para medir.
Gere novos dados de execução para sua execução de avaliação: Ao passar pela configuração assistida da avaliação agentic, você pode criar novos logs de execução em vários registros antes do início da avaliação. Use esta opção para reduzir o tempo e garantir que você tenha dados atualizados para avaliação.
Inclua cenários diversos em seu conjunto de dados: Crie conjuntos de dados que incluam vários cenários que seus ativos de IA agentivo podem encontrar, incluindo casos de borda e condições de erro. Conjuntos de dados abrangentes ajudam a identificar possíveis problemas antes que eles afetem os usuários.
Mantenha a qualidade e a relevância do conjunto de dados: Revise e atualize regularmente seus conjuntos de dados de avaliação para garantir que eles permaneçam relevantes para os casos de uso atuais. Remova cenários desatualizados e adicione novos que reflitam requisitos ou padrões de dados em constante mudança.
Considere o volume de dados para obter resultados significativos: Inclua volume de dados suficiente em seus conjuntos de dados para gerar resultados estatisticamente significativos. Conjuntos de dados pequenos podem não revelar padrões de desempenho ou problemas que se tornam aparentes com conjuntos de dados maiores.

Interpretando os resultados da avaliação

Entender os resultados da avaliação ajuda você a tomar decisões informadas sobre como melhorar seus ativos de IA agentivo e identificar áreas que precisam de atenção.

Analise tendências em várias execuções de avaliação: Compare os resultados de várias execuções de avaliação para identificar tendências no desempenho. Procure padrões que indiquem melhoria ou declínio no desempenho ao longo do tempo.
Foco em métricas que se alinham aos objetivos de negócios: Priorize as métricas de avaliação que mais se alinham aos seus objetivos de negócios e aos requisitos do usuário. Nem todas as métricas têm o mesmo peso para seu caso de uso específico.
Investigue resultados inesperados: Quando os resultados da avaliação forem significativamente diferentes das expectativas, investigue os problemas identificados e seus traços. Isso pode revelar problemas com a configuração do ativo de IA agentivo, a qualidade dos dados ou a configuração de avaliação.

Diretrizes gerais para uma avaliação eficaz

Siga estas diretrizes gerais para maximizar o valor de seus esforços de avaliação agentivo e garantir resultados confiáveis.

Estabelecer métricas de desempenho de linha de base: Crie medições de linha de base ao implantar seus ativos de IA agentivos pela primeira vez. Essas linhas de base fornecem pontos de referência para comparar resultados de avaliação futuros e acompanhar melhorias.
Monitore o desempenho da avaliação ao longo do tempo: Acompanhe o desempenho dos próprios processos de avaliação ao longo do tempo. Isso inclui tempos de execução da avaliação, uso de recursos e a confiabilidade da infraestrutura de avaliação.
Valide os métodos de avaliação periodicamente: Revise e valide periodicamente seus métodos de avaliação para garantir que eles continuem a fornecer informações significativas. Atualize métodos à medida que seus ativos de IA agentivo evoluem e os requisitos mudam.