Criar corpus de palavras

  • Versão de lançamento: Yokohama
  • Atualizado 30 de jan. de 2025
  • 4 min. de leitura
  • Crie uma coleção de palavras e frases que funcione como o vocabulário que o sistema usa para comparar seus registros de instância com base na semelhança textual. Você pode pensar no corpus de palavras como um dicionário que você deseja que o sistema de aprendizado de máquina entenda.

    Antes de Iniciar

    Função necessária: admin ou ml_admin
    Importante:
    Na versão Yokohama, os modelos nas estruturas de classificação, clustering e semelhança usam soluções de fluxo de trabalho. Eles são pré-treinados, portanto, um corpus de palavras não é necessário para suas novas soluções.

    Após o upgrade, as soluções existentes com um corpus de palavras se tornarão soluções de fluxo de trabalho na próxima vez em que forem treinadas novamente. Além disso, o campo Corpus de palavras é removido do formulário.

    As informações a seguir são fornecidas para o contexto legado.

    Por Que e Quando Desempenhar Esta Tarefa

    A finalidade primária de um corpus de palavras é inferir dados textuais para treinar seu modelo NLU. Se estiver usando um corpus de palavras em uma solução, você deverá especificá-lo para treinamento na fase de definição de uma solução. Um corpus de palavras treinado pode ser reutilizado em soluções e capacidades.

    Você pode usar um corpus de palavras para ajudar a comparar textos de registro semelhantes em uma tabela ou em várias tabelas. Um corpus de palavras também pode ser útil em outros cenários, como clustering, em que você agrupa registros semelhantes para análise, reutilização ou revisão de dados. Os itens adicionados ao corpus devem ser específicos para sua empresa e setor para que você possa reutilizá-los em outras soluções de semelhança ou cluster e aplicá-los a vários casos de uso.

    Neste procedimento de exemplo, você está trabalhando em registros de incidentes e deseja localizar artigos relevantes da base de conhecimento (KB) que podem fornecer resoluções para esses casos de incidentes. Seu objetivo aqui é criar um corpus de palavras que você possa aplicar a uma nova solução de semelhança que compara incidentes ativos com artigos da base de conhecimento publicados.

    Procedimento

    1. Navegar até Tudo > Inteligência preditiva > Corpus de palavras.
    2. No formulário Corpus de palavras, clique em Novo.
    3. Configure esses campos de acordo com a orientação a seguir.
      Campo Descrição
      Nome Um título exclusivo que faz referência ao conteúdo do seu corpus. Por exemplo, neste caso de uso, você pode inserir um nome como Incidentes ativos e Bases de conhecimento publicadas, já que o nome indica as tabelas que seu corpus vai minerar para ajudar a criar sua solução.
      Ativo Marque esta caixa de seleção se você estiver criando mais de um corpus de palavras por vez e planejar configurar seus componentes de detalhe posteriormente. Caso contrário, deixe em branco porque você pode selecioná-lo em uma etapa posterior.
    4. Selecione Enviar.
    5. Na exibição de lista do Corpus de palavras, localize o novo corpus de palavras e clique no valor Nome para abrir o registro.
    6. Na seção Conteúdo do corpus de palavras, clique em Novo.
    7. No formulário Conteúdo do corpus de palavras, configure esses campos de acordo com a orientação a seguir para definir um componente de conteúdo para o seu corpus de palavras.
      Campo Descrição
      Nome Insira um título que faça referência aos dados que você deseja adicionar ao corpus, como Incidentes encerrados nos últimos 6 meses.
      Tabela Selecione a tabela que contém os dados que você deseja incluir no corpus de palavras. Para este caso de uso, selecione Incidente [incidente].
      Nota:
      O número de registros por tabela para criação de corpus de palavras usado em soluções de semelhança e clustering é limitado a 300.000.
      Filtro Selecione os seguintes valores de condição de filtro: [Fechado] [não está vazio] e [Criado nos últimos 6 meses].
      Lista de campos Para este caso de uso, selecione Descrição resumida, Descriçãoe Anotações de resolução.
      Domínio O sistema exibe automaticamente o grupo de usuários do seu corpus. Por exemplo, neste caso de uso, ele mostra o grupo de usuários globais. Você também pode selecionar outros grupos de usuários.
    8. Selecione Enviar.
    9. Na seção Detalhes do corpus de palavras, selecione Novo.
    10. Configure esses campos de acordo com a orientação a seguir para definir um segundo componente de conteúdo para o corpus de palavras.
      Campo Descrição
      Nome Insira um título que faça referência aos dados que você deseja comparar com o primeiro componente de conteúdo, como Artigos da base de conhecimento publicados.
      Tabela Selecione a tabela que contém os dados que você deseja comparar com o primeiro componente de conteúdo. Para este caso de uso, selecione Conhecimento [kb_knowledge].
      Nota:
      O número de registros por tabela para criação de corpus de palavras usado em soluções de Semelhança e Clustering é limitado a 300.000 registros por tabela.
      Filtro Selecione os seguintes valores de Condição de filtro: [Workflow] [is] [Published].
      Lista de campos Selecione Descrição resumida e Corpo do artigo.
    11. Selecione Enviar.

      Os componentes do conteúdo do corpus de duas palavras aparecem no formulário do corpus de palavras.

      Esta imagem mostra os dois componentes de conteúdo que você criou para o corpus de palavras.
    12. Selecione Atualizar.

    Resultado

    O corpus de palavras concluído que você criou aparece no formulário de corpus de palavras e está disponível para uso em seus formulários de definição de solução de semelhança e clustering.

    Quando você clica em Atualizar, o sistema valida a adição dos componentes para concluir o processo de criação do corpus.

    O que Fazer Depois

    Crie uma solução na estrutura apropriada. Para obter mais informações, consulte os links no painel Conteúdo relacionado nesta página.