Criação e treinamento de uma solução de clustering

  • Versão de lançamento: Xanadu
  • Atualizado 16 de ago. de 2024
  • 7 min. de leitura
  • Agrupe registros semelhantes em clusters para que você possa abordá-los coletivamente ou identificar padrões.

    Antes de Iniciar

    Função necessária: ml_admin ou admin
    Importante:
    Com a versão Xanadu, os modelos de clustering e semelhança usam soluções de fluxo de trabalho. Eles são pré-treinados, portanto, um corpus de palavras não é necessário para suas novas soluções. Quando suas soluções existentes com um corpus de palavras são treinadas novamente após o upgrade, elas se tornam soluções de fluxo de trabalho e o campo Corpus de palavras é removido do formulário.

    Por Que e Quando Desempenhar Esta Tarefa

    Neste procedimento de exemplo, você está criando uma solução para identificar um incidente grave agrupando incidentes semelhantes que ocorreram recentemente.

    Para obter informações sobre como usar dados de treinamento criptografados, consulte Criptografia de dados na Inteligência preditiva.

    Procedimento

    1. Verifique se você está no escopo da aplicação desejado para a definição da solução e navegue até Todos > Inteligência preditiva > Clustering > Definições de solução.
    2. Na lista Definições de clustering, selecione Novo.
    3. No formulário Definição de clustering, configure os campos de acordo com a orientação a seguir.
      Campo Valor
      Rótulo Insira um nome exclusivo para sua solução de clustering. Por exemplo, neste caso de uso, você pode inserir Incidentes de grupo em um Incidente grave.
      Nome Conforme você insere o rótulo da solução, este campo é preenchido automaticamente com um nome atribuído pelo sistema com base no valor do rótulo.
      Corpus de palavras

      Se você tiver uma solução de cluster legada, poderá selecionar um corpus de palavras relevante no campo Corpus de palavras no formulário de definição.

      Nota:
      Com a versão Xanadu, um corpus de palavras não é necessário, porque um modelo pré-treinado é usado. O campo Corpus de palavras não está visível no formulário de definição para modelos pré-treinados.

      Para obter mais informações, consulte Criar corpus de palavras.

      Tabela

      Selecione a tabela que contém os tipos de registro que você deseja agrupar em um ou mais clusters. Por exemplo, neste caso de uso, você seleciona a tabela Incidente [incident], pois ela contém registros de incidentes que você deseja agrupar para uma análise de incidente grave.

      Quando você atribui um valor de tabela, um link aparece no formulário que mostra o número de registros que correspondem às condições atuais.

      Campos Selecione um ou mais tipos de campos de entrada que ajudam o sistema a identificar os registros que você deseja incluir no cluster. Neste caso de uso, use Descrição resumida.
      Nota:
      Ao selecionar um campo de tipo de referência, você deve fazer referência com pontos até o nome da propriedade do campo. Por exemplo, em vez de short_description, insira short_description.name.
      Usar Grupo por Marque esta caixa de seleção somente se quiser agrupar registros de entrada por um campo antes de criar clusters.
      Nota:
      Marcar esta caixa de seleção ativa a lista Agrupar por. Se você não marcar a caixa de seleção, todos os registros da tabela serão agrupados em clusters.
      Agrupar por

      A seleção de um valor nesta lista é opcional. Se você fizer isso, o sistema agrupará os registros em um ou mais clusters com base em sua seleção.

      Campos da Pureza Escolha campos da tabela que possam ajudar o sistema a identificar a classe mais frequente no cluster. Neste cenário de exemplo, selecione Categoria e Grupo de atribuição.Nome.
      Filtrar Adicione condições de filtro a serem aplicadas aos registros de campo de entrada que você deseja incluir em seus clusters. O número de registros para clustering é limitado a 300.000.
      Nota:
      As inclusões de script não podem ser referenciadas no filtro. Use exibições de banco de dados como alternativa.
      Idioma de processamento Selecione o idioma dominante do conjunto de dados que você está treinando na definição da solução. Se o idioma do conjunto de dados for italiano, escolha italiano. Além disso, o processamento em inglês é aplicado a todos os conjuntos de dados por padrão. Por exemplo, se você selecionar italiano, o sistema processará os dados em inglês e italiano.
      Nota:
      O termo processamento indica algumas das etapas específicas do idioma usadas como parte do treinamento de uma solução. Por exemplo, tokenizar palavras, remover palavras irrelevantes e truncar.
      Palavras irrelevantes Quando você seleciona o idioma de processamento, o sistema adiciona automaticamente uma lista de palavras irrelevantes nesse idioma. Por exemplo, se o idioma de processamento for o italiano, a lista Palavras irrelevantes padrão em italiano será exibida. A lista Palavras irrelevantes padrão em inglês também está incluída. Se você criar uma lista de palavras irrelevantes personalizada, poderá selecioná-la no campo Palavras irrelevantes para adicioná-la à sua solução.
      Frequência de Atualização
      Selecione com que frequência você deseja que o sistema atualize seus clusters com registros novos e atualizados.
      Nota:
      O sistema extrai registros com base nas condições do filtro Agrupar por que você define na solução de cluster, se houver.

      Por exemplo, se você selecionar A cada 15 minutos, o sistema identificará quais registros chegaram dentro desse intervalo de tempo. O sistema tenta atribuí-los aos clusters existentes ou cria um novo cluster, se possível.

      Neste exemplo, chegam 20 novos registros. Se 16 desses registros entrarem em um cluster existente e 4 não, o sistema formará um novo cluster para os quatro registros não atribuídos.

      Você também pode optar por não atualizar seus clusters.

      Frequência de Treinamento Selecione com que frequência você deseja que o sistema descarte todos os resultados de cluster anteriores e recrie os clusters desde o início. As opções variam de diariamente, a cada três dias, a cada sete dias ou mensalmente. Você também pode optar por treinar o cluster uma vez.
      Nota:
      O programador de ML limita o número de treinamentos que uma instância pode confirmar a 50 novas solicitações de treinamento de ML por instância em uma janela de 24 horas. O limite exclui solicitações de retreinamento programadas. Além disso, as atualizações de clustering e semelhança também são excluídas deste limite, mesmo se as novas solicitações de treinamento excederem 50 em uma janela de 24 horas.
      Número mínimo de registros por cluster Insira o número mínimo de registros que você deseja que um cluster contenha. O valor inserido deve ser 2 ou superior.
    4. Selecione a opção ou botão apropriado do menu de contexto para a definição da solução.
      OpçãoDescrição
      Salvar ou Salvar e Treinar Salve seu registro de definição de solução para que você possa retornar mais tarde ou salve-o e envie-o para treinamento.
      Enviar ou Enviar e Treinar Crie seu registro de definição de solução e envie-o ou envie-o e treine-o.
    5. Se você enviou a solução para treinamento, clique em OK na janela Ativação de treinamento para confirmar.

    Resultado

    O sistema treina a solução e notifica você em tempo real quando o treinamento é concluído.

    Um gráfico de mapa de árvore aparece na guia Visualização de cluster do formulário Definição de solução de cluster. O gráfico mostra os clusters que o sistema formou para sua solução em ordem decrescente do canto superior esquerdo ao canto inferior direito. Os rótulos de nó do mapa de árvore são o Conceito de Cluster, que é criado pelas principais palavras do cluster e ajuda a ver o conteúdo mais importante encontrado em cada cluster.
    Nota:
    O Conceito de cluster exibe as principais palavras dos dados de entrada processados, no idioma dos dados. Dependendo do idioma, o Conceito de cluster pode exibir palavras em sua forma raiz e, portanto, aparecer truncado.
    Cada nó é colorido de vermelho a verde, dependendo da qualidade do cluster desse nó. O filtro Selecionar grupo aparece somente quando você seleciona os campos Usar agrupar por e Agrupar por no formulário Definição de cluster. Ao apontar para um cluster, você pode ver seu valor Groupby, Contagem de Cluster e Registros em Groupby.
    Figura 1. Exemplo de visualização de cluster
    Guia Visualização de cluster do formulário Definição de solução de cluster. Ele mostra os clusters que o sistema formou para sua solução em ordem decrescente.

    Para abrir um cluster, você pode clicar nele ou selecioná-lo no filtro Mostrar todos os grupos.

    Dentro do agrupamento de clusters, você pode filtrar ainda mais os resultados usando as duas barras deslizantes para tamanho e qualidade do cluster, respectivamente. Você também pode navegar para trás clicando no botão Voltar, que só aparece quando uma hierarquia de cluster está presente. Quando você aponta para um cluster neste nível, os valores de percentil do campo Pureza aparecem junto com os valores de Conceito, Qualidade e Tamanho do cluster.
    Figura 2. Exemplo de grupo de clusters
    Grupo de clusters. Você pode filtrar por tamanho e qualidade do cluster. Quando você aponta para um cluster neste nível, os valores do campo Pureza são exibidos.
    Quando você clica em um nó de cluster, os detalhes do cluster de ML aparecem em um formato de exibição de lista.
    Figura 3. Página de detalhes do cluster
    A tabela Detalhes do cluster de ML contém os IDs de registro da solução de cluster, o nó Groupby, o nome da solução de ML e a porcentagem de classificação são mostrados em um formato de exibição de lista.

    O que Fazer Depois

    • Revise a saída da solução na guia Estatísticas da Solução da sua solução. Se você não estiver satisfeito com os resultados da solução de clustering, reconfigure os valores que definiu para a solução e treine-a novamente até que os resultados sejam satisfatórios.

    • Revise a guia Resumo do cluster para obter uma exibição de lista dos IDs de cluster, tamanho de qualidade e valores de GroupBy.
      Figura 4. Exemplo de resumo do cluster
      A tabela Resumo do cluster mostra que todos os clusters são listados por ID de cluster, qualidade, tamanho e valor groupby.
    • Na guia Atualizações de cluster, revise o resumo das mudanças nos clusters para cada intervalo de atualização de cluster configurado na definição da solução.
      Figura 5. Exemplo de atualizações de cluster
      A guia Atualizações de cluster mostra registros atribuídos a outros clusters, recém-criados, quantos registros foram atribuídos a novos clusters e o número total de registros em cluster.