Normalisation des lemmes et de l’Unicode

  • Rversion finale: Washingtondc
  • Mis à jour 1 févr. 2024
  • 2 minutes de lecture
  • Recherche IA normalise les mots fléchis et les glyphes Unicode pendant l’indexation et au moment de la requête de recherche. La normalisation améliore le rappel de recherche et permet aux utilisateurs de trouver du contenu avec des formes variantes de leurs termes de requête de recherche.

    Les fonctionnalités de normalisation sont automatiquement activées et ne sont pas configurables.

    Normalisation du lemme

    De nombreuses langues incluent des formes fléchies de termes, telles que les noms pluriels ou les temps verbaux. Recherche IA Normalise les termes fléchis trouvés dans le contenu indexé et les requêtes de recherche. La normalisation permet d’établir une correspondance basée sur une forme racine, telle que le singulier pour un nom pluriel ou la forme de base pour un verbe conjugué. Cette forme racine est appelée lemme, et ce processus est appelé normalisation du lemme.

    Par exemple, lorsqu’un enregistrement source inclut le verbe conjugué vendre, Recherche IA développe le terme indexé pour inclure la forme lemme vendre en plus de vendre. Lorsqu’un utilisateur recherche la forme conjuguée au passé vendu, Recherche IA développe le terme de requête de recherche pour inclure la forme lemme vendre ainsi que vendu. Étant donné que le terme indexé et le terme de requête de recherche incluent des formulaires correspondants, la recherche de l’utilisateur renvoie ainsi l’enregistrement de vente .

    Recherche IA prend en charge la normalisation du lemme spécifique à la langue pour Français, Français – Canada, Français, Allemand, Japonais, Chinois simplifié, Espagnol et Chinois traditionnel.

    Décomposition allemande

    En plus de normaliser les lemmes pour Allemand, Recherche IA indexe les mots composés et les mots qui les composent individuellement. Par exemple, lors de l’indexation d’un enregistrement qui contient le mot composé Humanressourcen, Recherche IA indexe les termes composant Human et ressourcen en plus du terme composé.

    Normalisation Unicode

    Recherche IA effectue la normalisation Unicode sur les termes indexés et les termes de requête de recherche. Cette normalisation permet d’effectuer des recherches dans les glyphes Unicode alphabétiques à l’aide de leurs caractères équivalents les plus proches.

    Par exemple, lors de l’indexation d’un enregistrement contenant le terme CV, Recherche IA développez le terme pour inclure également le formulaire CV sans accent. Cet enregistrement apparaît en tant que résultat de recherche lorsque les utilisateurs recherchent un CV ou un curriculum vitae.

    La normalisation Unicode comprend les étapes NFKD (décomposition de compatibilité) et NFKC (composition de compatibilité). Pour plus d’informations sur ces formes de normalisation, consultez l’Annexe de la norme Unicode #15, https://www.unicode.org/reports/tr15/.

    Interaction avec d’autres fonctionnalités de recherche

    Le tableau suivant décrit les interactions entre la normalisation et d’autres fonctionnalités de recherche.

    Fonctionnalité Interaction avec le lemme et la normalisation Unicode
    Résultats Genius

    Les termes de requête de recherche ajoutés par une normalisation lemmatique ou Unicode ne peuvent pas déclencher des configurations de résultats Genius avec des conditions de déclenchement de terme.

    Règles d’amélioration des résultats

    Un terme de requête de recherche ajouté par un lemme ou une normalisation Unicode peut déclencher une règle d’amélioration des résultats s’il correspond au déclencheur de requête de la règle.

    Mots vides

    Si un terme de requête de recherche est défini comme un mot vide, Recherche IA supprime ce terme sans le normaliser.

    Synonymes

    Si un terme de requête de recherche est défini comme un synonyme, Recherche IA cela ne le normalise pas.

    Gestion de la typo

    Recherche IA effectue la normalisation du lemme et de l’Unicode sur les termes de requête de recherche corrigés automatiquement.