Créer et former une solution de mise en grappe

Washington DC Activer l’IA

Release

washingtondc

ft:locale

fr-FR

ft:publication_title

Washington DC Activer l’IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Créer et former une solution de mise en grappe

Rversion finale: Washingtondc

Mis à jour 1 févr. 2024

8 minutes de lecture

Regroupez des enregistrements similaires en grappes afin de pouvoir les traiter collectivement ou identifier des modèles.

Avant de commencer

Rôle requis : ml_admin ou admin

Important :

Avec cette version, les modèles de clustering et de similarité utilisent des Washington DC solutions de workflow. Ceux-ci sont pré-entraînés, de sorte qu’un corpus de mots n’est pas nécessaire pour vos nouvelles solutions. Lorsque vos solutions existantes avec un corpus de mots sont re-entraînées après la mise à niveau, elles deviennent des solutions de workflow et le champ Corpus de mots est supprimé du formulaire.

Pourquoi et quand exécuter cette tâche

Intelligence prédictive prend en charge les solutions de formation dans lesquelles les données sources sont protégées par ces types de chiffrement.

FDE (chiffrement complet du disque).
Chiffrement au niveau des colonnes. Lors de l’utilisation de Column Level Encryption, assurez-vous que l’utilisateur sharedservice.worker dispose du même rôle de module de chiffrement que celui utilisé pour le chiffrement.

Intelligence prédictive ne prend pas en charge les solutions de formation dans lesquelles les données sources sont chiffrées par Edge Encryption.

Dans cet exemple de procédure, vous regroupez des incidents similaires qui se sont produits récemment pour identifier un incident majeur.

Procédure

Accédez à la Tous > Intelligence prédictive > Mise en grappe > Définitions des solutions.
Cliquez sur Nouveau dans la liste Définitions de regroupement.

Sur le formulaire Définition de mise en grappe, configurez ces champs selon les conseils suivants.


Champ	Valeur
Étiquette	Saisissez un nom unique pour votre solution de mise en grappe. Par exemple, dans ce cas d’utilisation, vous pouvez saisir `Regrouper les incidents vers un incident majeur.`
Nom	Lorsque vous saisissez la valeur de l’étiquette de votre solution, ce champ se remplit automatiquement avec un nom affecté par le système qui est similaire à votre valeur d’étiquette.
Corpus de mots	Si vous disposez d’une solution de clustering héritée, vous pouvez sélectionner un corpus de mots pertinent dans le champ Corpus de mots du formulaire de définition. Remarque : Avec la Washington DC version, aucun corpus de mots n’est nécessaire, car un modèle pré-entraîné est utilisé à la place. Le champ Corpus de mots n’est pas visible dans le formulaire de définition pour les modèles pré-entraînés. Pour plus d'informations, consultez Créer un corpus de mots.
Table	Sélectionnez la table qui contient les types d’enregistrements que vous souhaitez regrouper en une ou plusieurs grappes. Par exemple, dans ce cas d’utilisation, vous sélectionnez la table Incident [incident], car elle contient les enregistrements d’incidents que vous souhaitez regrouper pour une analyse d’incident majeur. Lorsque vous affectez une valeur de table, un lien s’affiche dans le formulaire qui indique le nombre d’enregistrements correspondant à vos conditions actuelles.
Champs	Sélectionnez un ou plusieurs types de champs d’entrée qui aident le système à identifier les enregistrements que vous souhaitez inclure dans votre cluster. Dans ce cas d’utilisation, utilisez une description brève. Remarque : Lors de la sélection d’un champ de type référence, vous devez remonter pas à pas jusqu’au nom de propriété du champ. Par exemple, au lieu de `short_description`, saisissez `short_description.name`.
Utiliser le groupe par	Cochez cette case uniquement si vous souhaitez regrouper les enregistrements d’entrées par champ avant de créer des grappes. Remarque : Cocher cette case active la liste Grouper par . Si vous ne cochez pas la case, tous les enregistrements de table sont regroupés en grappes.
Grouper par	La sélection d’une valeur dans cette liste est facultative. Si vous le faites, le système regroupe les enregistrements dans une ou plusieurs grappes en fonction de votre sélection.
Champs de pureté	Choisissez dans votre table des champs qui peuvent aider le système à identifier la classe la plus fréquente dans la grappe. Dans cet exemple de scénario, sélectionnez Catégorie et Groupe d’affectation. Nom.
Filtre	Ajoutez les conditions de filtre à appliquer aux enregistrements de champ d’entrée que vous souhaitez inclure dans vos clusters. Remarque : Le nombre d’enregistrements pour la mise en grappe est limité à 300 000.
Langue de traitement	Sélectionnez la langue dominante du jeu de données que vous formez sur la définition de la solution. Si la langue du jeu de données est l’italien, choisissez l’italien. Le traitement en anglais est également appliqué par défaut à tous les jeux de données. Par exemple, si vous sélectionnez l'italien, le système traite les données en anglais et en italien. Remarque : le terme traitement indique certaines des étapes spécifiques à la langue utilisées dans le cadre de la formation d'une solution. Par exemple, la tokénisation des mots, la suppression des mots vides et la racinisation.
Mots vides	Lorsque vous sélectionnez votre langue de traitement, le système ajoute automatiquement une liste de mots vides qui utilise la même langue. Par exemple, si votre langue de traitement est l'italien la liste des Mots vides italiens par défaut s'affiche. La liste Mots vides anglais par défaut s'affiche également dans votre sélection. Si vous créez une liste de mots vides personnalisés, vous pouvez la sélectionner à partir du champ Mots vides pour l'ajouter à votre solution.
Fréquence de mise à jour	Sélectionnez la fréquence à laquelle vous souhaitez que le système mette à jour vos clusters avec des enregistrements nouveaux et mis à jour. Remarque : Le système extrait les enregistrements en fonction des conditions de filtre Grouper par que vous définissez sur votre solution de mise en grappe, le cas échéant. Par exemple, si vous sélectionnez Toutes les 15 minutes, le système identifie les enregistrements qui sont arrivés dans ce délai. Le système tente de les affecter aux grappes existantes, ou crée une nouvelle grappe si possible. Dans cet exemple, 20 nouveaux enregistrements arrivent. Si 16 de ces enregistrements parviennent à intégrer une grappe existante et que 4 ne le font pas, le système forme une nouvelle grappe pour les quatre enregistrements non affectés. Vous pouvez également choisir de ne pas mettre à jour vos clusters du tout.
Fréquence de la formation	Sélectionnez la fréquence à laquelle vous souhaitez que le système annule tous les résultats de grappe précédents et recrée les grappes depuis le début. Vos options vont de tous les jours à tous les trois jours, tous les sept jours ou tous les mois. Vous pouvez également choisir d’entraîner votre cluster une seule fois. Remarque : Le planificateur d’apprentissage machine limite le nombre de formations qu’une instance peut valider à 50 nouvelles demandes de formation d’apprentissage machine par instance dans une fenêtre de 24 heures. La limite exclut les demandes de nouvelle formation planifiées. En outre, les mises à jour de la mise en grappe et de la similarité sont également exclues de cette limite, même si les nouvelles demandes de formation dépassent 50 dans une fenêtre de 24 heures.
Nombre minimum d'enregistrements par grappe	Saisissez le nombre minimal d’enregistrements que la grappe doit contenir. La valeur saisie doit être supérieure ou égale à 2.

Cliquez sur l'option ou le bouton de menu contextuel approprié pour la définition de votre solution.

Option	Description
Enregistrer ou Enregistrer et former	Enregistrez l'enregistrement de votre définition de solution pour pouvoir y revenir ultérieurement ou enregistrez-le et soumettez-le pour une formation.
Soumettre ou Soumettre et former	Créez votre enregistrement de définition de solution et soumettez-le, ou soumettez-le et formez-le.

Si vous avez soumis la solution pour une formation, cliquez sur OK dans la fenêtre d’activation de la formation pour confirmer.

Résultats

Le système forme la solution et vous informe en temps réel lorsque la formation est terminée.

Un tracé d’arborescence s’affiche dans l’onglet Visualisation des grappes de votre formulaire Définition de la solution de mise en grappe. Le tracé montre les clusters que le système a formés pour votre solution dans l’ordre décroissant, du coin supérieur gauche au coin inférieur droit. Les étiquettes de nœud d’arborescence correspondent au concept de grappe, qui est créé par les mots principaux de la grappe et vous aide à voir le contenu le plus important trouvé dans chaque grappe.

Remarque :

Le concept de grappe utilise les mots principaux des données d’entrée traitées et utilise la même langue. En fonction de votre langue, le concept de grappe peut inclure des mots dans leur forme racine et apparaître coupés.

Chaque nœud est coloré du rouge au vert en fonction de la qualité de la grappe pour ce nœud. Le filtre Sélectionner un groupe s’affiche uniquement lorsque vous sélectionnez les champs Utiliser Grouper par et Grouper par sur votre formulaire Définition de regroupement. Lorsque vous pointez sur une grappe, vous pouvez voir sa valeur Grouper par, son nombre de grappes et ses enregistrements dans Grouper.

Onglet Visualisation de grappe de votre formulaire Définition de la solution de mise en grappe. Elle affiche les clusters que le système a formés pour votre solution dans l’ordre décroissant. — Figure 1. Exemple de visualisation de grappes

Pour ouvrir un cluster, vous pouvez cliquer dessus ou le sélectionner dans le filtre Afficher tous les groupes.

À l’intérieur du regroupement de grappes, vous pouvez filtrer davantage les résultats à l’aide des deux barres de défilement correspondant respectivement à la taille de la grappe et à la qualité de la grappe. Vous pouvez également revenir en arrière en cliquant sur le bouton Retour, qui s’affiche uniquement lorsqu’une hiérarchie de regroupement est présente. Lorsque vous pointez sur une grappe à ce niveau, les valeurs de percentile du champ Pureté s’affichent avec les valeurs Concept de la grappe, Qualité et Taille.

Groupe de grappe. Vous pouvez filtrer en fonction de la taille et de la qualité de la grappe. Lorsque vous pointez sur une grappe à ce niveau, les valeurs du champ Pureté s’affichent. — Figure 2. Exemple de groupe de grappe

Lorsque vous cliquez sur un nœud de grappe, les détails de sa grappe ML s’affichent sous forme de vue de liste.

La table Détail de grappe ML contient les ID d’enregistrement pour la solution de mise en grappe, le nœud Grouper par, le nom de la solution ML et le pourcentage de classement sont affichés sous forme de vue de liste. — Figure 3. Page Détails de la grappe

Que faire ensuite

Examinez la sortie de la solution dans l’onglet Statistiques de la solution de votre solution. Si vous n’êtes pas satisfait des résultats de votre solution de clustering, reconfigurez les valeurs que vous avez définies pour votre solution et reformez-la jusqu’à ce que les résultats soient satisfaisants.
Passez en revue l’onglet Récapitulatif de la grappe pour obtenir une vue de liste des ID de grappe, de la taille de la qualité et des valeurs Grouper par.
Figure 4. Exemple de résumé de grappe
Dans l’onglet Mises à jour de clusters, passez en revue le résumé des modifications apportées aux clusters pour chaque intervalle de mise à jour de cluster que vous avez configuré dans la définition de solution.
Figure 5. Exemple de mises à jour de grappes