Perguntas frequentes sobre avaliações agentivas
Encontre respostas para perguntas comuns sobre como configurar e executar avaliações.
- Preciso manter algo pronto antes de uma avaliação automatizada?
- Antes de começar, certifique-se de:
- Teste seu agente ou fluxo de trabalho no playground. Detecte os problemas óbvios antecipadamente: As avaliações automatizadas são as melhores para uma validação mais profunda.
- Certifique-se de que sua tabela tenha todas as entradas necessárias se você estiver gerando cenários de teste ou usando cenários de execuções de agente ou fluxo de trabalho anteriores durante a configuração.
- Prepare cenários suficientes. Recomendamos pelo menos 100. Sua avaliação é tão forte quanto as situações que você coloca seu agente.
- Defina o que sucesso significa. Seja claro sobre qual deve ser a saída certa para seu agente.
- Como configurar minha primeira avaliação automatizada?
- Para configurar uma avaliação, siga o fluxo guiado:
- Selecione seu agente ou fluxo de trabalho e sua versão.
- Escolha suas métricas, integradas ou personalizadas.
- Use um conjunto de dados existente ou decida como você deseja criar um.
- Quando devo criar uma métrica personalizada?
- Crie uma métrica personalizada quando você tiver critérios de avaliação exclusivos e quiser medir comportamentos específicos do fluxo de trabalho ou do agente que não são cobertos por ServiceNow de métricas integradas. Por exemplo, você pode querer:
- Verifique se uma frase específica aparece na resposta do agente.
- Meça o comprimento da resposta para avaliar o detalhamento ou brevidade.
- Como criar um conjunto de dados para avaliações agênticas?
- Há duas maneiras de criar um conjunto de dados para avaliações agenciais, mas primeiro, vamos esclarecer o que é um conjunto de dados. Seu conjunto de dados deve incluir logs de execuções que capturam o que acontece quando seu agente de IA ou fluxo de trabalho processa registros, como incidentes, caso ou tarefas. Você pode criar um conjunto de dados:
- Uso de logs de execuções de agentes e de fluxos de trabalho anteriores, ou
- Gerando novos logs executando o agente ou fluxo de trabalho após a configuração.
- O que vem a seguir após uma avaliação automatizada?
- Revisar os resultados da avaliação para:
- Identifique lacunas de configuração em seu agente ou fluxo de trabalho
- Avaliar prontidão da implantação
- Analise o desempenho da ferramenta em busca de ocorrências com entradas ou descrições
- Detalhar execuções individuais e pontuações de métrica
- Como posso criar uma métrica personalizada?
- Criar uma métrica personalizada em algumas etapas:
- Nomeie e descreva sua métrica.
- Defina seu escopo de avaliação: Fluxo de trabalho agentivo, agentes ou ambos.
- Especifique o que ele mede, como funciona e seu formato de saída.
- Adicione entradas de métrica e escreva sua métrica baseada em script.
- Salve e publique para disponibilizá-lo para uso.
- Como interpretar resultados da avaliação?
- Com base nas métricas selecionadas, cada execução exibirá uma pontuação para cada métrica. Consulte o "Guia de métricas" para entender o que as pontuações significam. Você também pode personalizar os limites de métrica para se alinhar às definições de sucesso e falha da sua organização.
- Como posso acompanhar o andamento das minhas avaliações?
- As avaliações podem levar algum tempo, mas você não precisa permanecer na página. Na página inicial, você pode acompanhar todas as avaliações e até mesmo ver se alguma ação é necessária.
- Como a ferramenta de análise é usada durante a criação da métrica personalizada?
- Ao criar uma métrica personalizada para avaliações agenciais, fornecer uma entrada de métrica é opcional. Incluímos o "sys_id do registro do plano de execução" por padrão. Também fornecemos uma ferramenta de análise que extrai dados estruturados de seus logs de execução, para que você não precise analisar manualmente por meio de XML ou JSON. Você pode acessar as saídas da ferramenta analisador com a saída da ferramenta.