Avalie o desempenho geral do seu agente após a conclusão de uma execução, incluindo pontuações por métrica e contagens de problemas. Use os resultados como ponto de partida para diagnosticar problemas de qualidade e oportunidades de melhoria antes da implantação.
Antes de Iniciar
Você deve ter uma avaliação agential concluída.
Função necessária: sn_aia.admin ou admin
Por Que e Quando Desempenhar Esta Tarefa
As avaliações automatizadas incluem pontuações e recomendações nas diferentes métricas escolhidas. Cada saída fornece informações que você pode usar para tomar decisões sobre o desenvolvimento e a implantação do ativo de IA agentivo. Os resultados da avaliação ajudam a identificar padrões de desempenho, problemas de qualidade e oportunidades de otimização antes de implantar seu agente na produção.
Procedimento
-
Navegar até .
-
Selecione a avaliação automatizada da qual você deseja revisar os resultados.
A página de detalhes da avaliação é aberta, exibindo os resultados gerais e as métricas de desempenho.
-
Revise a seção de resumo da avaliação para entender o desempenho geral.
O resumo fornece uma visão geral de alto nível do desempenho do agente em todas as métricas avaliadas. As principais informações incluem:
- Informações do ativo de IA agential, como nome e versão
- Número total de casos de teste avaliados
- Pontuações médias em todas as métricas
- Número de problemas identificados por nível de gravidade
-
Revise as pontuações gerais julgadas pelo LLM para cada métrica.
As pontuações gerais julgadas pelo LLM para cada métrica demonstram padrões e tendências gerais nas métricas avaliadas por você. Essas pontuações fornecem recomendações gerais para implantação com base na versão atual do ativo de IA agentivo. Os resultados detalhados incluem:
- Pontuação numérica
- Classificação de desempenho (excelente, bom, moderado ou ruim)
- Avaliações de registro individual
-
Investigue quaisquer problemas e o deles rastreamentos associados .
Se forem encontrados problemas com o desempenho do ativo de IA agentivo, eles serão categorizados por nível de gravidade, métrica e caso de uso. Os problemas podem ser rastreados até suas origens em interações específicas, chamadas de "rastreamentos". Revise problemas e seus rastreamentos para diagnosticar problemas subjacentes. Os problemas são classificados por nível de gravidade:
- Crítica: Problemas que podem impedir o agente de funcionar corretamente, resultando em uma experiência de usuário ruim
- Alto: Problemas significativos que afetam a experiência ou a precisão do usuário
- Médio: Problemas moderados que podem afetar o desempenho em alguns cenários
- Baixo: Problemas menores que têm impacto mínimo na funcionalidade geral
-
Aplicar otimizações com base nas descobertas.
A avaliação automatizada pode incluir otimizações recomendadas para resolver problemas encontrados na avaliação. Depois de aplicar a otimização, você pode executar novamente a avaliação para ver as mudanças no comportamento e no desempenho. Acompanhe as melhorias comparando resultados entre execuções de avaliação.
Resultado
Você tem uma revisão abrangente do desempenho do seu agente em todas as métricas avaliadas. Use essas informações para tomar decisões informadas sobre a prontidão da implantação ou identificar áreas que exigem trabalho de desenvolvimento adicional.