Execute uma execução de avaliação agentiva

  • Versão de lançamento: Australia
  • Atualizado 13 de nov. de 2025
  • 5 min. de leitura
  • Avalie ativos de IA agentivo em relação a conjuntos de dados para monitorar o desempenho e comparar benchmarks.

    Antes de Iniciar

    As execuções de avaliação exigem dados de log de execução do ativo de IA agentivo que você deseja avaliar. Você pode criar dados de log de execução testando em Estúdio de agentes de IA Ou acionando IA agentivo em Now Assist. Você também pode criar dados de log de execução após configurar sua execução de avaliação.

    Para obter mais informações sobre como testar fluxos de trabalho do agente, consulte Teste manualmente a execução de um fluxo de trabalho agentivo.

    Para obter mais informações sobre como começar a usar avaliações agenciais, consulte Diretrizes gerais para execuções de avaliação de agentes .

    Função necessária: sn_aia.admin

    Procedimento

    1. Navegar até Tudo > Kit de habilidades do Now Assist > Avaliações agentivas.

      Você também pode iniciar na página de teste do Estúdio de agentes de IA. Navegar até Tudo > Studio do agente de IA > Testando. Selecione Iniciar avaliação automatizada para acessar a configuração assistida.

    2. Na página inicial Avaliações, selecione Nova execução de avaliação para iniciar a configuração assistida.
    3. Em Adicione informações gerais Etapa, adicione um nome e selecione o ativo de IA agentivo que você deseja avaliar.

      Etapa de configuração assistida do agente de IA de incidente de ITSM para adicionar informações gerais com nome, descrição e gerar plano de resolução como o agente de IA selecionado usando a versão v1.

    4. Selecione Continuar para ir para a próxima etapa.

      Cada vez que você navega por uma etapa, a execução da avaliação é salva automaticamente como rascunho. A qualquer momento, você pode selecionar Salvar como rascunho .

      Se você quiser sair da configuração assistida, selecione Sair da configuração . Você será redirecionado para a página Avaliações agenciais.

      • Se você selecionar Salve e saia , A execução de avaliação aparece na página Avaliações agenciais com o status de Draft.
      • Se você selecionar Descarte e saia , o rascunho da execução de avaliação é excluído.
    5. Selecione sua métrica de avaliação.

      A avaliação de completude geral da tarefa é selecionada por padrão. A execução de várias métricas de avaliação fornece uma visão geral abrangente do desempenho do ativo de IA agentivo.

      Para ver mais informações sobre cada plano, você pode expandir o cartão de cada plano de avaliação selecionando o ícone de divisa Ícone de divisa..

      Todas as métricas personalizadas que você publicou aparecem como opções. Se você não vir sua métrica personalizada, verifique se ela foi publicada. Consulte Crie uma métrica personalizada para obter mais informações.

      Nota:
      A métrica de correção de chamada da ferramenta não está disponível para agentes de voz de IA.

      Avaliação de desempenho da ferramenta Etapa de configuração assistida para selecionar um método de avaliação com três opções selecionadas (conclusão geral da tarefa, desempenho da ferramenta e chamada da ferramenta).

    6. Configure seu conjunto de dados.
      1. Escolha entre gerar novos logs de execução executando o agente ou fluxo de trabalho ou usando logs de execução de execuções anteriores.
        Nota:
        Se você estiver avaliando agentes de voz com IA, use os logs de execução existentes.
      2. Para criar um conjunto de dados gerando novos logs de execução, comece selecionando uma tabela.

        Em vez de criar um novo conjunto de dados do zero, você pode optar por usar um conjunto de dados anterior que você usou em uma avaliação diferente selecionando Selecione em um conjunto de dados anterior . Depois de selecionar um conjunto de dados, você pode revisar os detalhes, incluindo a tabela de origem, a contagem de registros e o último ativo de IA agentivo que usou o conjunto de dados.

        Nota:
        Se você estiver avaliando um ativo de IA agentivo criado com o Consultor de agente de IA, as opções do seu conjunto de dados serão preenchidas automaticamente para você. Você ainda pode fazer edições nos valores.
        Tabela 1. Configure o formulário de conjunto de dados para novos logs de execução

        Nome do campo

        Descrição

        Tabela

        A tabela de origem dos registros que o ativo de IA agentivo usa para executar tarefas e criar execuções.

        Filtros adicionados

        Condições para restringir a lista de registros para o ativo de IA agentivo usar para gerar dados de log de execução.

        Número de registros a serem usados

        O número máximo de registros no conjunto de dados para avaliação. Se o conjunto de dados contiver mais registros do que o máximo, registros adicionais serão ignorados.

        Tarefa

        Enunciado fornecido ao ativo de IA agentivo a ser executado. Use o seletor de cápsulas para selecionar entradas dinâmicas para a tarefa. Por exemplo, defina a instrução inicial como [Incident.number . As entradas do registro devem ser gravadas entre chaves duplas.

        Detalhes adicionais sobre o agente ou fluxo de trabalho

        Informações fornecidas ao modelo de linguagem grande (LLM) que complementa as informações de registro da tabela. Por exemplo, um fluxo de trabalho agentivo de reembolso de mensalidade requer o subsídio de reembolso normal, que pode ser fornecido por meio de um artigo de conhecimento.

        Executar como usuário

        O usuário associado ao registro da tabela para executar o ativo de IA agentivo. Por exemplo, dependendo do seu caso de uso, você pode executar o usuário como solicitante ou executante.

        Nome

        Nome do conjunto de dados. Isso pode ser útil se você planeja usar o mesmo conjunto de dados novamente.

        Descrição

        Descrição dos registros contidos no conjunto de dados. Isso pode ser útil se você planeja usar o mesmo conjunto de dados novamente.

        Nota:
        Se você estiver criando novos logs de execução, o usuário que envia a avaliação deve passar nas ACLs do ativo de IA agentivo e seus componentes. Sem os requisitos de função corretos, os logs de execução relatam negação de acesso e a avaliação falha. Consulte Segurança para IA agentiva para obter mais informações.

        Gerar novos logs de execução selecionados. Os registros de amostra têm um filtro de estado e prioridade aplicado

        Outras opções para gerar novos logs de execução, incluindo o número de registros a serem usados, tarefa, detalhes adicionais sobre o agente ou fluxo de trabalho e executar como usuário

        Tabela 2. Configure o formulário de conjunto de dados para logs de execução existentes

        Nome do campo

        Descrição

        Filtros adicionados

        Condições para restringir os registros de log de execução de IA que você deseja incluir no conjunto de dados.

        Nota:
        As condições de filtro não são compatíveis com a criação de conjuntos de dados de logs de execução do agente de voz de IA.

        Número de registros a serem usados

        O número máximo de registros no conjunto de dados para avaliação. Se o conjunto de dados contiver mais registros do que o máximo, registros adicionais serão ignorados.

      3. Selecione Visualização para ver uma lista de registros com base nas condições especificadas.
        Você pode restringir os registros selecionando registros específicos na lista de visualização. Registros não selecionados não serão incluídos no conjunto de dados.
    7. Revise os detalhes da avaliação do agente na última etapa da configuração assistida.

      Se você quiser fazer mudanças, selecione De volta para ir para uma etapa anterior, ou você pode selecionar a etapa na barra lateral.

      Página de revisão de desempenho da ferramenta da configuração assistida.

    8. Selecione Iniciar avaliação .

    Resultado

    Sua execução de avaliação é executada. O tempo de conclusão varia, mas após a conclusão, você pode selecionar a avaliação na página Avaliações agenciais para exibir os resultados.

    Para obter mais informações sobre as métricas na página Resultados, consulte Resultados da execução da avaliação do agente .