Créer un corpus de mots

  • Rversion finale: Xanadu
  • Mis à jour 1 août 2024
  • 4 minutes de lecture
  • Créez une collection de mots et d’expressions qui fonctionne comme le vocabulaire utilisé par le système pour comparer vos enregistrements d’instance en fonction de leur similarité textuelle. Vous pouvez considérer le corpus de mots comme un dictionnaire que vous voulez que votre système d’apprentissage automatique comprenne.

    Avant de commencer

    Rôle requis : ml_admin ou admin

    Pourquoi et quand exécuter cette tâche

    Important :
    Avec la version, les modèles de clustering et de similarité utilisent des Xanadu solutions de workflow. Ceux-ci sont pré-entraînés, de sorte qu’un corpus de mots n’est pas nécessaire pour vos nouvelles solutions. Lorsque vos solutions existantes avec un corpus de mots sont réentraînées après la mise à niveau, elles deviennent des solutions de workflow, et le champ Corpus de mots est supprimé du formulaire.

    Les informations suivantes sont fournies pour le contexte d’héritage.

    L’objectif principal d’un corpus de mots est de déduire des données textuelles pour l’entraînement de votre NLU modèle. Si vous utilisez un corpus de mots dans une solution, vous devez le spécifier pour la formation dans la phase de définition de solution d’une solution. Un corpus de mots formé peut être réutilisé dans toutes les solutions et fonctionnalités.

    Vous pouvez utiliser un corpus de mots pour comparer un texte d’enregistrement similaire dans une table ou dans plusieurs tables. Un corpus de mots peut également être utile dans d’autres scénarios, tels que la mise en grappe, où vous regroupez des enregistrements similaires pour l’analyse, la réutilisation ou la révision des données. Les éléments que vous ajoutez à votre corpus doivent être spécifiques à votre entreprise et à votre secteur d’activité afin que vous puissiez les réutiliser dans d’autres solutions de similarité ou de clustering et les appliquer à divers cas d’utilisation.

    Dans cet exemple de procédure, vous travaillez sur des enregistrements d’incidents et vous souhaitez localiser les articles de la base de connaissances pertinents qui pourraient fournir des solutions à ces tickets d’incident. Votre objectif ici est de créer un corpus de mots que vous pouvez appliquer à une nouvelle solution de similarité qui compare les incidents actifs aux articles de la base de connaissances publiés.

    Procédure

    1. Accédez à la Tout > Intelligence prédictive > Corpus de mots.
    2. Dans le formulaire Word Corpus, cliquez sur Nouveau.
    3. Configurez ces champs en suivant les conseils suivants.
      Champ Description
      Nom Un titre unique qui fait référence au contenu de votre corpus. Par exemple, dans ce cas d’utilisation, vous pouvez entrer un nom tel que Incidents actifs et Bases de connaissances publiées, car le nom indique les tables que votre corpus va explorer pour vous aider à créer votre solution.
      Actif Cochez cette case si vous créez plusieurs corpus de mots à la fois et que vous prévoyez de configurer leurs composants détaillés ultérieurement. Sinon, laissez-le vide, car vous pourrez le sélectionner ultérieurement.
    4. Cliquez sur Envoyer.
    5. Dans la vue de liste Corpus de mots, localisez votre nouveau corpus de mots et cliquez sur sa valeur Nom pour ouvrir l’enregistrement.
    6. Dans la section Contenu du corpus de mots, cliquez sur Nouveau.
    7. Dans le formulaire Contenu du corpus de mots, configurez ces champs conformément aux instructions suivantes pour définir un composant de contenu pour votre corpus de mots.
      Champ Description
      Nom Saisissez un titre qui fait référence aux données que vous souhaitez ajouter à votre corpus, par exemple Incidents fermés au cours des 6 derniers mois.
      Table Sélectionnez la table qui contient les données que vous souhaitez inclure dans votre corpus de mots. Pour ce cas d’utilisation, sélectionnez Incident [incident].
      Remarque :
      Le nombre d’enregistrements par table pour la création de corpus de mots utilisés dans les solutions de similarité et de clustering est limité à 300 000.
      Filtre Sélectionnez les valeurs de condition de filtre suivantes : [Fermé] [n’est pas vide] et [Créé au cours des 6 derniers mois].
      Liste des champs Pour ce cas d’utilisation, sélectionnez Description brève, Description et Notes de résolution.
      Domaine Le système affiche automatiquement le groupe d’utilisateurs de votre corpus. Par exemple, dans ce cas d’utilisation, il affiche le groupe d’utilisateurs global. Vous pouvez également sélectionner d’autres groupes d’utilisateurs.
    8. Cliquez sur Envoyer.
    9. Dans la section Détails du corpus de mots, cliquez sur Nouveau.
    10. Configurez ces champs selon les instructions ci-dessous pour définir un deuxième composant de contenu pour votre corpus de mots.
      Champ Description
      Nom Saisissez un titre qui fait référence aux données que vous souhaitez comparer à votre premier composant de contenu, tel que Articles de la base de connaissances publiés.
      Table Sélectionnez la table qui contient les données que vous souhaitez comparer à votre premier composant de contenu. Pour ce cas d’utilisation, sélectionnez Connaissances [kb_knowledge].
      Remarque :
      Le nombre d’enregistrements par table pour la création de corpus de mots utilisés dans les solutions de similarité et de mise en grappe est limité à 300 000 enregistrements par table.
      Filtre Sélectionnez les valeurs de condition de filtre suivantes : [Workflow] [est] [Publié].
      Liste des champs Sélectionnez Description brève et Corps de l’article.
    11. Cliquez sur Envoyer.

      Vos deux composants de contenu de corpus de mots s’affichent sur le formulaire de corpus de mots.

      Cette image montre les deux composants de contenu que vous avez créés pour votre corpus de mots.
    12. Cliquez sur Mettre à jour.

    Résultats

    Le corpus de mots complété que vous avez créé apparaît sur le formulaire du corpus de mots.

    Lorsque vous cliquez sur Mettre à jour, le système valide l’ajout des composants pour terminer le processus de création du corpus.