Explorar avaliações agênticas
As avaliações automatizadas testam seus ativos de IA agentivo e ajudam a determinar quando eles estão prontos para produção. Saiba mais sobre como funcionam as avaliações, para quem elas são projetadas e os benefícios que elas oferecem.
Visão geral das avaliações do agente
As avaliações agenciais automatizadas ajudam a dar aos construtores de agentes de IA a confiança para implantar com evidências objetivas e explicáveis de que seus agentes estão prontos para produção. Eles removem a adivinhação da garantia de qualidade executando seu agente em um conjunto de dados definido e aplicando juízes habilitados para LLM para pontuar a qualidade, como integridade da tarefa, precisão da resposta e uso da ferramenta. A partir daí, o sistema gera otimizações recomendadas que você pode aplicar antes de acionar uma reavaliação para confirmar melhorias.
A criação de ativos de IA agentivos, como agentes de IA e fluxos de trabalho agentivos, é um processo iterativo. As avaliações agenciais são projetadas para verificar a qualidade do ativo de IA de maneira estruturada para ajudar a acelerar o processo. Como você está testando em conjuntos de dados representativos, pode ter mais confiança no desempenho do seu ativo de IA agentivo para lidar com situações do mundo real.
As avaliações agenciais podem ser executadas em ambientes que não são de produção e não exigem implantação em tempo real. Eles podem ser executados durante as fases de teste de ativos de IA agentivos para ajudar a garantir que eles possam ser implantados em um ambiente de produção e, ao mesmo tempo, atender aos seus benchmarks e padrões.
Usuários de avaliações agenciais
| Usuário | Descrição |
|---|---|
| Construtor de agentes | Desenvolvedor ou configurador que cria agentes no Estúdio de agentes de IA. As avaliações automatizadas são projetadas para que os criadores de agentes possam executar avaliações rigorosas em escala. |
| Administradores da plataforma | Os administradores de plataforma que controlam quais agentes são aprovados para produção podem usar resultados de avaliação automatizados para evidências de qualidade antes da implantação. |
| Líderes e arquitetos de IA | Os líderes e arquitetos de IA podem usar resultados de avaliação automatizados para trilhas de auditoria e métricas de qualidade em vários agentes. |
Fluxo de trabalho de avaliações automatizadas
- Configure uma execução de avaliação com um nome, ativo de IA agentivo selecionado e sua versão, métricas e conjunto de dados.
- Execute a execução e acompanhe o andamento à medida que o LLM avalia as respostas agenciais.
- Analise os resultados da execução, incluindo as pontuações do juiz e os problemas e rastreamentos identificados.
- Otimize o ativo de IA agentivo com recomendações direcionadas e acione reavaliações.
- Valide a qualidade de execuções futuras ou outras mudanças no ativo de IA agentivo.
Benefícios das avaliações automatizadas
| Benefício | Recurso | Usuários |
|---|---|---|
| Avalie versões específicas de ativos de IA agentivos quanto à qualidade | Execute uma execução de avaliação | Criadores de agentes |
| Defina seus próprios padrões para respostas e desempenho de IA agentivo | Métricas personalizadas | Criadores de agentes, administradores de plataforma, líderes de IA e arquitetos |
| Rastreie as avaliações à medida que elas progridem | Resultados em andamento | Criadores de agentes |
| Identifique problemas e rastreie-os até a origem | Saídas da avaliação | Criadores de agentes, líderes de IA, arquitetos de IA |
| Otimize ativos de IA agentivo com base nos resultados da avaliação | Recomendações de otimização geradas pelo sistema | Criadores de agentes |