Diretrizes gerais para execuções de avaliação de fluxo de trabalho do agente

  • Versão de lançamento: Zurich
  • Atualizado 31 de jul. de 2025
  • 1 min. de leitura
  • Saiba mais sobre execuções de avaliação agencial e diferentes recomendações para avaliar seus fluxos de trabalho do agente em relação a conjuntos de dados para verificar a conclusão, o desempenho e a execução da ferramenta.

    Visão geral das execuções de avaliação do agente

    As execuções de avaliação para fluxos de trabalho do agente avaliam as execuções do fluxo de trabalho do agente para diferentes métricas, como conclusão da tarefa, desempenho e execução da ferramenta. Você pode criar conjuntos de dados usando logs para fluxos de trabalho do agente.

    Quando executar avaliações de agentes

    Execute depois de coletar dados suficientes.
    As execuções de avaliação são medidas em relação aos logs de atividade de fluxo de trabalho do agente em sua instância.
    Execute avaliações agenciais ao fazer mudanças significativas.
    Depois de fazer atualizações no fluxo de trabalho do agente, você pode executar uma execução de avaliação do agente para rastrear a eficácia da nova versão.

    Escolha de um método de avaliação

    Revise as opções do método de avaliação.
    A avaliação agentic Configuração assistida fornece informações sobre cada método de avaliação, incluindo o que eles estão medindo e como funcionam. Você também pode revisar as perguntas comuns na barra lateral para obter respostas sobre as métricas disponíveis.
    Use vários métodos de avaliação por vez.
    Escolher vários métodos de avaliação pode fornecer uma imagem geral melhor do desempenho do fluxo de trabalho do agente.

    Criando um conjunto de dados

    Use filtros para direcionar os dados corretos.
    Adicione filtros aos logs de execução para controlar exatamente o que você está medindo seu fluxo de trabalho do agentic. Filtre diferentes períodos de tempo para verificar se você está medindo a versão mais recente de um fluxo de trabalho. Você pode selecionar Visualização para ver uma lista de registros. Você também pode usar as caixas de seleção para selecionar registros individuais para medir.