Créer et former une solution de mise en grappe

  • Rversion finale: Zurich
  • Mis à jour 31 juil. 2025
  • 8 minutes de lecture
  • Regroupez des enregistrements similaires dans des grappes afin de pouvoir les traiter collectivement ou identifier des schémas.

    Avant de commencer

    Rôle requis : ml_admin ou admin
    Important :
    Dans la Zurich version, les modèles des cadres de travail de classification, de mise en grappe et de similarité utilisent des solutions de workflow. Ceux-ci sont préformés, de sorte qu’aucun corpus de mots n’est nécessaire pour vos nouvelles solutions. Lorsque vos solutions existantes avec un corpus de mots sont reformées après la mise à niveau, elles deviennent des solutions de workflow et le champ Corpus de mots est supprimé du formulaire.

    Pourquoi et quand exécuter cette tâche

    Dans cet exemple de procédure, vous créez une solution pour identifier un incident majeur en regroupant des incidents similaires qui se sont produits récemment.

    Pour plus d’informations sur l’utilisation de données d’entraînement chiffrées, reportez-vous à la section Chiffrement des données dans Intelligence prédictive.

    Procédure

    1. Assurez-vous d’être dans le périmètre de l’application que vous souhaitez pour votre définition de solution, puis accédez à Tous > Intelligence prédictive > Mise en grappe > Définitions des solutions.
    2. Dans la liste Définitions de mise en grappe, sélectionnez Nouveau.
    3. Dans le formulaire Définition de la mise en grappe, configurez les champs en fonction des conseils suivants.
      Champ Valeur
      Étiquette Entrez un nom unique pour votre solution de mise en grappe. Par exemple, dans ce cas d’utilisation, vous pouvez saisir Regrouper les incidents dans un incident majeur.
      Nom Lorsque vous entrez l’étiquette de votre solution, ce champ se remplit automatiquement avec un nom affecté par le système en fonction de votre valeur d’étiquette.
      Corpus de mots

      Si vous disposez d’une solution de mise en grappe héritée, vous pouvez sélectionner un corpus de mots pertinent dans le champ Corpus de mots du formulaire de définition.

      Remarque :
      Avec la Zurich mise en production, un corpus de mots n’est pas nécessaire, car un modèle préformé est utilisé à la place. Le champ Corpus de mots n’est pas visible dans le formulaire de définition pour les modèles préformés.

      Pour plus d'informations, consultez Créer un corpus de mots.

      Table

      Sélectionnez la table qui contient les types d’enregistrements que vous souhaitez regrouper en une ou plusieurs grappes. Par exemple, dans ce cas d’utilisation, vous sélectionnez la table Incident [incident], car elle contient des enregistrements d’incidents que vous souhaitez regrouper pour une analyse d’incident majeur.

      Lorsque vous affectez une valeur de table, un lien apparaît dans le formulaire et indique le nombre d’enregistrements qui correspondent à vos conditions actuelles.

      Champs Sélectionnez un ou plusieurs types de champs d’entrée qui aident le système à identifier les enregistrements que vous souhaitez inclure dans votre grappe. Dans ce cas d’utilisation, utilisez Description brève.
      Remarque :
      Lorsque vous sélectionnez un champ de type référence, vous devez remonter pas à pas jusqu’au nom de la propriété du champ. Par exemple, au lieu de short_description, saisissez short_description.nom.
      Utiliser le groupe par Cochez cette case uniquement si vous souhaitez regrouper les enregistrements d’entrées avant de créer des grappes.
      Remarque :
      Cocher cette case active la liste Grouper par . Si vous ne sélectionnez pas la case à cocher, tous les enregistrements de table sont regroupés en grappes.
      Grouper par

      La sélection d’une valeur dans cette liste est facultative. Si vous le faites, le système regroupe les enregistrements dans une ou plusieurs grappes en fonction de votre sélection.

      Champs de pureté Choisissez les champs de votre table qui peuvent aider le système à identifier la classe la plus fréquente dans la grappe. Dans cet exemple, sélectionnez Catégorie et Groupe d’affectation. Nom.
      Filtrer Ajoutez des conditions de filtre à appliquer aux enregistrements de champ d’entrée que vous souhaitez inclure dans vos grappes.
      • Le nombre maximal d’enregistrements pour la mise en grappe est limité à 300 000.
      • Pour de meilleurs résultats, visez au moins 2000 enregistrements au minimum.
      Remarque :
      Les includes de script ne peuvent pas être référencés à partir du filtre. Utilisez les vues de base de données comme alternative.
      Langue de traitement Sélectionnez la langue dominante du jeu de données que vous formez sur la définition de la solution. Si la langue de l’ensemble de données est l’italien, choisissez Italien. Le traitement en anglais est également appliqué par défaut à tous les jeux de données. Par exemple, si vous sélectionnez l'italien, le système traite les données en anglais et en italien.
      Remarque :
      le terme traitement indique certaines des étapes spécifiques à la langue utilisées dans le cadre de la formation d'une solution. Par exemple, la tokénisation des mots, la suppression des mots vides et la racinisation.
      Mots vides Lorsque vous sélectionnez votre langue de traitement, le système ajoute automatiquement une liste de mots vides dans cette langue. Par exemple, si votre langue de traitement est l'italien la liste des Mots vides italiens par défaut s'affiche. La liste des mots vides anglais par défaut est également incluse. Si vous créez une liste de mots vides personnalisée, vous pouvez la sélectionner dans le champ Mots vides pour l’ajouter à votre solution.
      Fréquence de mise à jour
      Sélectionnez la fréquence à laquelle vous souhaitez que le système mette à jour vos clusters avec les enregistrements nouveaux et mis à jour.
      Remarque :
      Le système extrait les enregistrements en fonction des conditions de filtre Grouper par que vous avez définies sur votre solution de clustering, le cas échéant.

      Par exemple, si vous sélectionnez Toutes les 15 minutes, le système identifie les enregistrements arrivés dans ce délai. Le système essaie de les affecter aux clusters existants ou crée un nouveau cluster si possible.

      Dans cet exemple, 20 nouveaux enregistrements arrivent. Si 16 de ces enregistrements sont placés dans une grappe existante et que 4 ne le sont pas, le système forme une nouvelle grappe pour les quatre enregistrements non affectés.

      Vous pouvez également choisir de ne pas mettre à jour vos clusters du tout.

      Fréquence de la formation Sélectionnez la fréquence à laquelle vous souhaitez que le système supprime tous les résultats de grappe précédents et recrée les grappes depuis le début. Vos options sont quotidiennes, tous les trois jours, tous les sept jours ou mensuelles. Vous pouvez également choisir de former votre cluster une seule fois.
      Remarque :
      Le planificateur ML limite le nombre de formations qu’une instance peut valider à 50 nouvelles demandes de formation ML par instance dans une fenêtre de 24 heures. La limite exclut les demandes de reformation planifiées. En outre, les mises à jour de mise en grappe et de similarité sont également exclues de cette limite, même si les nouvelles demandes de formation dépassent 50 dans une fenêtre de 24 heures.
      Nombre minimum d'enregistrements par grappe Entrez le nombre minimal d’enregistrements que vous souhaitez qu’une grappe contienne. La valeur que vous saisissez doit être supérieure ou égale à 2.
    4. Sélectionnez l’option de menu contextuel ou le bouton approprié pour votre définition de solution.
      OptionDescription
      Enregistrer ou Enregistrer et former Enregistrez l'enregistrement de votre définition de solution pour pouvoir y revenir ultérieurement ou enregistrez-le et soumettez-le pour une formation.
      Soumettre ou Soumettre et former Créez votre enregistrement de définition de solution et soumettez-le, ou soumettez-le et formez-le.
    5. Si vous avez soumis la solution pour la formation, sélectionnez OK dans la fenêtre Activation de la formation pour confirmer.

    Résultats

    Le système forme la solution et vous avertit en temps réel lorsque la formation est terminée.

    Un tracé d’arborescence apparaît dans l’onglet Visualisation de grappe de votre formulaire de définition de solution de mise en grappe. Le graphique affiche les clusters formés par le système pour votre solution par ordre décroissant, du coin supérieur gauche au coin inférieur droit. Les étiquettes de nœud d’arborescence sont le concept de cluster, qui est créé par les mots les plus importants du cluster et vous aide à voir le contenu le plus important trouvé dans chaque cluster.
    Remarque :
    Le concept de grappe affiche les mots principaux des données d’entrée traitées, dans la langue des données. Selon la langue, le concept de cluster peut afficher les mots dans leur forme racine et donc apparaître tronqué.
    Chaque nœud est coloré du rouge au vert selon la qualité du cluster pour ce nœud. Le filtre Sélectionner un groupe s’affiche uniquement lorsque vous sélectionnez les champs Utiliser Grouper par et Grouper par dans votre formulaire de définition de clustering. Lorsque vous pointez sur une grappe, vous pouvez voir sa valeur Grouper par, son nombre de grappes et ses enregistrements dans Grouper par.
    Figure 1. Exemple de visualisation de grappe
    Onglet Visualisation de grappe de votre formulaire de définition de solution de mise en grappe. Il affiche les clusters formés par le système pour votre solution par ordre décroissant.

    Pour ouvrir une grappe, vous pouvez cliquer dessus ou la sélectionner dans le filtre Afficher tous les groupes.

    Dans le regroupement de clusters, vous pouvez filtrer davantage les résultats en utilisant les deux barres de défilement pour la taille et la qualité du cluster, respectivement. Vous pouvez également revenir en arrière en cliquant sur le bouton Retour, qui n’apparaît que lorsqu’une hiérarchie de clustering est présente. Lorsque vous pointez sur une grappe à ce niveau, les valeurs de centile du champ Pureté s’affichent avec les valeurs Concept de grappe, Qualité et Taille.
    Figure 2. Exemple de groupe de grappes
    Groupe de grappes. Vous pouvez filtrer la taille et la qualité des grappes. Lorsque vous pointez sur une grappe à ce niveau, les valeurs du champ Pureté s’affichent.
    Lorsque vous cliquez sur un nœud de cluster, ses détails de cluster ML apparaissent sous forme de vue de liste.
    Figure 3. Page des détails de la grappe
    La table Détails de la grappe ML contient les ID d’enregistrement de la solution de mise en grappe, le nœud Grouper par, le nom de la solution ML et le pourcentage de classement sont affichés sous forme de vue de liste.

    Que faire ensuite

    • Passez en revue la sortie de la solution dans l’onglet Statistiques de la solution de votre solution. Si vous n’êtes pas satisfait des résultats de votre solution de mise en grappe, reconfigurez les valeurs que vous avez définies pour votre solution et reformez-la jusqu’à ce que les résultats soient à votre satisfaction.

    • Passez en revue l’onglet Résumé de la grappe pour obtenir une vue de liste des ID de grappes, de la taille de la qualité et des valeurs Grouper par.
      Figure 4. Exemple de résumé de grappe
      La table Récapitulatif de la grappe montre que toutes les grappes sont répertoriées par ID, qualité, taille et valeur groupby de grappe.
    • Dans l’onglet Mises à jour des clusters, passez en revue le résumé des modifications apportées aux clusters pour chaque intervalle de mise à jour des clusters que vous avez configuré dans la définition de la solution.
      Figure 5. Exemple de mises à jour de grappes
      L’onglet Mises à jour des grappes affiche les enregistrements affectés à d’autres grappes, les enregistrements nouvellement créés, le nombre d’enregistrements qui ont été affectés à de nouvelles grappes et le nombre total d’enregistrements mis en grappe.