Teste em lote para vários modelos

  • Versão de lançamento: Zurich
  • Atualizado 31 de jul. de 2025
  • 3 min. de leitura
  • Teste vários Compreensão da linguagem natural(NLU) em relação a um grande conjunto de enunciados para avaliar o desempenho dos modelos. Adicione conjuntos de testes, teste vários modelos e veja os resultados do teste.

    Uso resumido

    Use o Teste em lote de vários modelos para criar e carregar conjuntos de testes compostos por enunciados e suas intenções esperadas. Em seguida, você pode executar testes em seus modelos de NLU.

    O teste em lote de vários modelos funciona com modelos para todos os idiomas NLU compatíveis. Consulte NLU suporte a idiomas.

    Instalação

    O teste em lote de vários modelos faz parte do Workbench de NLU- Recursos avançados app disponível no ServiceNow® Store.

    Para usar o Teste em lote de vários modelos, certifique-se de que Workbench de NLU- O plug-in Recursos avançados (com.snc.nlu.workbench.advanced) está ativo em sua instância. Para obter mais informações, consulte Instalar NLU Workbench - Recursos avançados e. Ative o Workbench de NLU .

    Conjuntos de testes

    Conjuntos de testes são listas de enunciados e intenções correspondentes. Crie um conjunto de testes usando uma tabela em um arquivo CSV ou XLSX (pasta de trabalho do Excel). A tabela deve conter duas colunas: Uma para enunciados e outra para a intenção esperada. Seu conjunto de testes pode incluir até 10 000 linhas.

    Para aproveitar ao máximo o teste de seus modelos de NLU, seus conjuntos de testes devem incluir enunciados que o modelo provavelmente encontrará de seus usuários. Os enunciados de teste devem estar no mesmo idioma do modelo a ser testado. O conjunto de testes também deve incluir enunciados sem intenções esperadas. Incluir enunciados sem intenção esperada ajuda a avaliar a capacidade do seu modelo de detectar enunciados irrelevantes e que não devem ter intenção prevista.

    Ao incluir esses tipos de enunciados, o teste avalia melhor a capacidade do modelo de perceber intenções e responder aos usuários. Se o seu conjunto de testes não cobrir pelo menos 60% das intenções dos modelos, você ainda poderá executar o teste, mas o limite recomendado pode não ser ideal.
    Nota:
    Determinados enunciados de teste serão ignorados durante o teste se sua intenção esperada não corresponder a nenhuma intenção nos modelos.

    Para criar um conjunto de testes, consulte Crie um conjunto de testes.

    Depois de ter um conjunto de testes, você pode testar modelos de NLU treinados. Para começar o teste, consulte Execute um teste em lote de vários modelos.

    Depois de executar um teste, os resultados serão exibidos em Resultados do teste página.

    Resultados de testes

    . Resultados do teste a página lista seus testes concluídos e em andamento. Rapidamente, a página Resultados mostra os modelos testados, o número de enunciados e as porcentagens de previsão.

    Página de teste em lote de vários modelos com testes concluídos.

    Para ver os detalhes de um resultado de teste, clique no nome do conjunto de testes.

    . Visão geral a página mostra informações resumidas sobre os resultados e inclui um gráfico com um detalhamento das previsões.

    . Intenções que precisam de atenção (modelo atual) mostra as 5 principais intenções perdidas e incorretas. Clique no nome da intenção para detalhar os enunciados de teste que foram previstos incorretamente. Use essas informações para melhorar o modelo.

    . Resultados detalhados lista informações sobre cada enunciado que foi testado. Aqui, você pode ver o resultado da previsão e a confiança por modelo para cada enunciado. Filtre os resultados usando a barra de pesquisa ou interagindo com as ferramentas de filtro e os cabeçalhos de coluna.

    Você também pode exportar os resultados do teste para um arquivo CSV clicando em Exportação . O arquivo inclui as mesmas colunas da página de resultados detalhados.

    Para obter mais informações sobre como entender os resultados do teste, consulte Teste e publique seu modelo.