Criar e treinar uma solução de cluster

  • Versão de lançamento: Zurich
  • Atualizado 31 de jul. de 2025
  • 7 min. de leitura
  • Agrupe registros semelhantes em clusters para que você possa abordá-los coletivamente ou identificar padrões.

    Antes de Iniciar

    Função necessária: Ml_admin ou admin
    Importante:
    Em Zurich Os modelos de versão, nas estruturas de classificação, cluster e semelhança usam soluções de fluxo de trabalho. Eles são pré-treinados, portanto, um corpus de palavras não é necessário para suas novas soluções. Quando suas soluções existentes com um corpus de palavras são treinadas novamente após a atualização, elas se tornam soluções de fluxo de trabalho e o campo Corpus de palavras é removido do formulário.

    Por Que e Quando Desempenhar Esta Tarefa

    Neste procedimento de exemplo, você está criando uma solução para identificar um incidente grave agrupando incidentes semelhantes que ocorreram recentemente.

    Para obter informações sobre como usar dados de treinamento criptografados, consulte Criptografia de dados em Inteligência preditiva.

    Procedimento

    1. Certifique-se de estar no escopo da aplicação desejado para a definição da solução e navegue até Tudo > Inteligência preditiva > Clustering > Definições de solução.
    2. Na lista Definições de cluster, selecione Novo .
    3. No formulário Definição de cluster, configure os campos de acordo com a orientação a seguir.
      Campo Valor
      Rótulo Insira um nome exclusivo para sua solução de cluster. Neste caso de uso, você pode inserir Agrupar incidentes em um incidente grave.
      Nome Ao inserir o rótulo da solução, este campo é preenchido automaticamente com um nome atribuído pelo sistema com base no valor do rótulo.
      Corpus de palavras

      Se você tiver uma solução de cluster legada, poderá selecionar um corpus de palavras relevante no Corpus de palavras campo no formulário de definição.

      Nota:
      Com Zurich um corpus de palavras não é necessário, porque um modelo pré-treinado é usado. . Corpus de palavras o campo não está visível no formulário de definição para modelos pré-treinados.

      Para obter mais informações, consulte Crie um corpus de palavras.

      Tabela

      Selecione a tabela que contém os tipos de registro que você deseja agrupar em um ou mais clusters. Por exemplo, neste caso de uso, você seleciona Incidente [incidente] tabela, pois contém registros de incidentes que você deseja agrupar para uma análise de incidente grave.

      Quando você atribui um valor de tabela, um link aparece no formulário que mostra o número de registros que correspondem às suas condições atuais.

      Campos Selecione um ou mais tipos de campos de entrada que ajudam o sistema a identificar os registros que você deseja incluir no cluster. Neste caso de uso, use Descrição resumida .
      Nota:
      Ao selecionar um campo de tipo de referência, você deve fazer referência com pontos até o nome da propriedade do campo. Por exemplo, em vez de short_description insira short_description.name .
      Usar Grupo por Marque esta caixa de seleção somente se quiser agrupar registros de entrada por um campo antes de criar clusters.
      Nota:
      Marcar esta caixa de seleção ativa Agrupar por lista. Se você não marcar a caixa de seleção, todos os registros de tabela serão agrupados em clusters.
      Agrupar por

      Selecionar um valor nesta lista é opcional. Se você fizer isso, o sistema agrupará registros em um ou mais clusters com base em sua seleção.

      Campos da Pureza Escolha campos da tabela que podem ajudar o sistema a identificar a classe mais frequente no cluster. Neste cenário de exemplo, selecione Categoria e. Grupo de atribuição.Nome .
      Filtrar Adicione condições de filtro a serem aplicadas aos registros de campo de entrada que você deseja incluir em seus clusters.
      • O número máximo de registros para cluster é limitado a 300 000.
      • Para obter melhores resultados, procure pelo menos 2000 registros como mínimo.
      Nota:
      As inclusões de script não podem ser referenciadas no filtro. Use exibições de banco de dados como alternativa.
      Idioma de processamento Selecione o idioma dominante do conjunto de dados que você está treinando na definição da solução. Se o idioma do conjunto de dados for italiano, escolha Italiano . Além disso, o processamento em inglês é aplicado a todos os conjuntos de dados por padrão. Por exemplo, se você selecionar italiano, o sistema processará os dados em inglês e italiano.
      Nota:
      O termo processando indica algumas das etapas específicas do idioma usadas como parte do treinamento de uma solução. Por exemplo, tokenizar palavras, remover palavras irrelevantes e stemming.
      Palavras irrelevantes Quando você seleciona o idioma de processamento, o sistema adiciona automaticamente uma lista de Palavras irrelevantes nesse idioma. Por exemplo, se o idioma de processamento for o italiano, a lista Palavras irrelevantes padrão em italiano será exibida. . Palavras irrelevantes padrão em inglês a lista também está incluída. Se você criar uma lista de palavras irrelevantes personalizada, poderá selecioná-la no campo Palavras irrelevantes para adicionar à sua solução.
      Frequência de atualização
      Selecione a frequência com que você deseja que o sistema atualize seus clusters com registros novos e atualizados.
      Nota:
      O sistema extrai registros com base nas condições de filtro Agrupar por que você definiu em sua solução de cluster, se houver.

      Por exemplo, se você selecionar A cada 15 minutos , o sistema identifica quais registros chegaram dentro desse intervalo de tempo. O sistema tenta atribuí-los aos clusters existentes ou cria um novo cluster, se possível.

      Neste exemplo, chegam 20 novos registros. Se 16 desses registros entrarem em um cluster existente e 4 não, o sistema criará um novo cluster para os quatro registros não atribuídos.

      Você também pode optar por não atualizar seus clusters.

      Frequência de treinamento Selecione com que frequência você deseja que o sistema descarte todos os resultados de cluster anteriores e recrie os clusters desde o início. Suas opções variam de diariamente, a cada três dias, a cada sete dias ou mensalmente. Você também pode optar por treinar seu cluster uma vez.
      Nota:
      O programador DE ML limita o número de treinamentos que uma instância pode confirmar a 50 novas solicitações de treinamento DE ML por instância em uma janela de 24 horas. O limite exclui solicitações de retreinamento programadas. Além disso, as atualizações de cluster e semelhança também são excluídas desse limite, mesmo que as novas solicitações de treinamento excedam 50 em uma janela de 24 horas.
      Número mínimo de registros por cluster Insira o número mínimo de registros que você deseja que um cluster contenha. O valor inserido deve ser 2 ou superior.
    4. Selecione a opção de menu de contexto apropriada ou o botão para a definição da solução.
      OpçãoDescrição
      Salvar ou Salvar e treinar Salve o registro de definição da solução para retornar a ele mais tarde ou salvá-lo e enviá-lo para treinamento.
      Enviar ou Enviar e treinar Crie seu registro de definição de solução e envie-o ou envie-o e treine-o.
    5. Se você enviou a solução para treinamento, selecione OK Na janela Ativação de treinamento para confirmar.

    Resultado

    O sistema treina a solução e notifica você em tempo real quando o treinamento é concluído.

    Um gráfico de mapa de árvore aparece na guia Visualização de cluster do formulário Definição de solução de cluster. O gráfico mostra os clusters que o sistema formou para sua solução em ordem decrescente do canto superior esquerdo para o canto inferior direito. Os rótulos do nó do mapa de árvore são o conceito de cluster, que é criado pelas principais palavras do cluster e ajuda você a ver o conteúdo mais proeminente encontrado em cada cluster.
    Nota:
    O conceito de cluster exibe as principais palavras dos dados de entrada processados, no idioma dos dados. Dependendo do idioma, o conceito de cluster pode exibir palavras em sua forma raiz e, portanto, aparecer truncado.
    Cada nó é colorido de vermelho a verde, dependendo da qualidade do cluster desse nó. O filtro Selecionar grupo aparece somente quando você seleciona Agrupar por e. Agrupar por Campos no formulário Definição de cluster. Ao apontar para um cluster, você pode ver seu valor Groupby, Contagem de clusters e Registros em Groupby.
    Figura 1. Exemplo de visualização de cluster
    Guia Visualização de cluster do formulário Definição de solução de cluster. Ele mostra os clusters que o sistema formou para sua solução em ordem decrescente.

    Para abrir um cluster, você pode clicar nele ou selecioná-lo no filtro Mostrar todos os grupos.

    Dentro do agrupamento de clusters, você pode filtrar os resultados ainda mais usando as duas barras deslizantes para tamanho do cluster e qualidade do cluster, respectivamente. Você também pode navegar para trás clicando no botão Voltar, que aparece somente quando uma hierarquia de cluster está presente. Quando você aponta para um cluster neste nível, os valores de percentil do campo de pureza aparecem junto com os valores Conceito de cluster, Qualidade e Tamanho.
    Figura 2. Exemplo de grupo de cluster
    Grupo de clusters. Você pode filtrar o tamanho e a qualidade do cluster. Quando você aponta para um cluster neste nível, os valores do campo de pureza são exibidos.
    Quando você clica em um nó de cluster, os detalhes do cluster de ML aparecem em um formato de exibição de lista.
    Figura 3. Página de detalhes do cluster
    A tabela Detalhes do cluster de ML contém os IDs de registro da solução de cluster, nó Groupby, nome da solução de ML e percentual de classificação mostrados em um formato de exibição de lista.

    O que Fazer Depois

    • Revise a saída da solução na guia Estatísticas da solução da sua solução. Se você não estiver satisfeito com os resultados da solução de cluster, reconfigure os valores definidos para sua solução e treine-os novamente até que os resultados sejam satisfatórios.

    • Revise a guia Resumo do cluster para obter uma exibição de lista dos IDs do cluster, do tamanho da qualidade e dos valores Groupby.
      Figura 4. Exemplo de resumo do cluster
      A tabela Resumo do cluster mostra que todos os clusters estão listados por ID do cluster, qualidade, tamanho e groupby valor.
    • Na guia Atualizações de cluster, revise o resumo das mudanças nos clusters para cada intervalo de atualização de cluster configurado na definição da solução.
      Figura 5. Exemplo de atualizações de cluster
      A guia Atualizações de cluster mostra registros atribuídos a outros clusters, recém-criados e quantos registros foram atribuídos a novos clusters e o número total de registros em cluster.