La génération augmentée de récupération (RAG, pour « retrieval-augmented generation » en anglais) permet d’améliorer les grands modèles de langage en intégrant des données provenant de bases de connaissances externes afin d’améliorer la précision et la pertinence des sorties sans recourir à un nouvel entraînement. Les modèles de langage gagnent ainsi en efficacité et en adaptabilité dans des domaines particuliers.
Le terme « génération augmentée de récupération » est tiré d’un article publié en 2020 par Patrick Lewis. Dans son article, Lewis a présenté une méthode qui a considérablement élargi les capacités des modèles d’IA générative en les intégrant à des sources de connaissances externes. Cette intégration a été conçue pour améliorer la précision et l’applicabilité des modèles dans divers contextes, propulsant la RAG dans un domaine de recherche et d’application en expansion rapide.
Le terme « génération augmentée de récupération » décrit précisément la fonction de base de la méthodologie, qui consiste à accroître le processus générateur des modèles d’IA par la récupération de données externes. Le concept a rapidement gagné en popularité, ce qui a mené à son adoption généralisée dans les domaines universitaire et commercial. Aujourd’hui, la RAG sous-tend de nombreux systèmes d’IA dans des environnements de recherche et des applications en situation réelle, ce qui représente une évolution cruciale dans la façon dont les modèles génératifs sont utilisés et développés.
Le processus de la RAG commence par la cueillette de données provenant de diverses sources, comme des sites Web, des bases de données ou des documents. Ces données sont ensuite converties en un format que le modèle peut rechercher et utiliser, créant ainsi une sorte de bibliothèque de connaissances externes.
Les grands modèles de langage (GML) sont à l’avant-garde des avancées en matière d’intelligence artificielle, particulièrement dans les applications de traitement du langage naturel comme les robots conversationnels intelligents. Ces modèles sont conçus pour comprendre et générer des textes semblables à ceux d’un humain dans le but de fournir des réponses précises dans divers contextes. Cependant, certains défis inhérents aux GML ont une incidence sur leur fiabilité.
La tendance des GML à fournir des réponses qui peuvent être inexactes, désuètes ou fondées sur des sources non autorisées constitue un problème majeur. Étant donné que le fonctionnement des GML repose sur des ensembles de données fixes, les connaissances sont effectivement figées au moment du dernier entraînement de mise à jour.
La RAG relève ces défis en intégrant un mécanisme de récupération qui s’appuie sur des sources de connaissances externes faisant autorité et à jour avant de générer des réponses. Cette approche améliore la précision et la pertinence de l’information fournie par les GML tout en veillant à ce que les réponses reposent sur des données vérifiées. Ce faisant, la RAG améliore la confiance des utilisateurs et leur contrôle sur les sorties des applications d’IA.
La génération augmentée de récupération révolutionne diverses fonctions d’affaires en améliorant la précision et la personnalisation des tâches axées sur l’IA. Voici quelques cas d’utilisation clés où la RAG a une incidence importante.
La technologie de RAG transforme le service à la clientèle, car elle alimente les assistants virtuels et robots conversationnels de niveau avancé qui fournissent des réponses plus précises et plus pertinentes sur le plan contextuel. En accédant aux renseignements et aux données les plus récents provenant de sources faisant autorité, ces systèmes d’IA peuvent offrir des solutions rapides et personnalisées aux demandes de renseignements des clients. Cette capacité améliore la rapidité d’intervention et accroît la satisfaction de la clientèle et l’efficacité opérationnelle.
Grâce à la RAG, les entreprises peuvent également créer du contenu pertinent et de grande qualité, comme des billets de blogue, des articles et des descriptions de produits. En tirant parti de sa capacité à extraire et à intégrer des données provenant de diverses sources externes et internes, la RAG s’assure que le contenu est à la fois intéressant et riche en renseignements vérifiés. Cette aide permet de réaliser d’importantes économies en temps et en ressources en ce qui a trait aux processus de développement du contenu.
La RAG offre une valeur inestimable pour mener des études de marché approfondies en compilant et en analysant des renseignements provenant d’un large éventail de sources en ligne, y compris les médias d’information, les rapports de l’industrie et les médias sociaux. Elle permet aux entreprises de garder une longueur d’avance sur les tendances du marché et de prendre des décisions fondées sur des données qui cadrent avec la dynamique actuelle du marché et les comportements des consommateurs.
L’utilisation de la RAG peut grandement améliorer le processus de vente en fournissant une aide virtuelle qui permet d’accéder aux renseignements sur les produits, y compris les spécifications et les niveaux d’inventaire, et de les transmettre. Elle permet de répondre aux questions des clients en temps réel et d’offrir des recommandations personnalisées en fonction des préférences et des interactions antérieures. Elle permet même d’obtenir des avis et de la rétroaction de divers canaux pour aider les consommateurs à prendre des décisions d’achat éclairées.
La RAG permet d’améliorer l’expérience employé en créant un centre de connaissances facilement accessible. En s’intégrant aux bases de données internes, la RAG fournit aux employés des renseignements exacts et à jour sur tout, depuis les politiques de l’entreprise jusqu’aux procédures opérationnelles. Elle permet d’avoir un effectif mieux informé et de simplifier les processus internes en réduisant le temps consacré à la recherche de renseignements.
La génération augmentée de récupération et la recherche sémantique permettent toutes deux d’améliorer les grands modèles de langage, mais elles servent des fonctionnalités distinctes. La RAG améliore les GML en les intégrant à des sources de connaissances externes, ce qui contribue à générer des réponses précises et pertinentes. C’est particulièrement utile pour les applications comme le soutien à la clientèle ou la génération de contenu qui nécessitent des renseignements précis et à jour.
La recherche sémantique, cependant, se concentre sur la compréhension de l’intention et du sens contextuel des requêtes. Elle tire parti de la compréhension du langage naturel pour s’y retrouver dans de grandes bases de données et récupérer des renseignements qui cadrent sur le plan sémantique aux demandes de renseignements des utilisateurs.
Tandis que la RAG tire parti des données externes pour enrichir les sorties des GML, la recherche sémantique automatise le processus de récupération des données et traite des complexités comme l’intégration de mots et le regroupement de documents. Cela réduit les efforts manuels déployés lors de la préparation des données et assure la pertinence et la qualité de l’information utilisée par les GML.
Ensemble, la RAG et la recherche sémantique améliorent la fonctionnalité et la précision des applications d’IA en améliorant à la fois les processus de récupération et de génération.
La RAG s’appuie sur plusieurs composantes essentielles de son architecture pour améliorer la fonctionnalité des GML.
- La couche d’orchestration
Ce composant agit à titre de coordonnateur central au sein du système RAG. Il traite les données saisies par l’utilisateur ainsi que toutes les métadonnées connexes, comme l’historique des conversations. La couche d’orchestration dirige les requêtes vers le GML et gère la livraison de la réponse générée. Cette couche intègre généralement divers outils et scripts personnalisés, souvent écrits en code Python, afin d’assurer un fonctionnement sans faille à l’échelle du système. - Outils de récupération
Ces outils sont essentiels pour obtenir le contexte nécessaire pour ancrer et éclairer les réponses du GML. Les outils de récupération comprennent des bases de données servant de bases de connaissances et des systèmes fondés sur l’API qui extraient des renseignements pertinents. Ces outils fournissent l’épine dorsale factuelle des réponses et veillent à ce que celles-ci soient à la fois précises et pertinentes sur le plan contextuel. - Grand modèle de langage (GML)
Le grand modèle de langage lui-même est le composant de base qui génère des réponses en fonction des invites et de l’information récupérées. Qu’il soit hébergé par un fournisseur tiers comme OpenAI ou exploité à l’interne, le GML utilise de vastes paramètres entraînés par des données pour produire des résultats nuancés et adaptés au contexte.
La mise en œuvre de la génération augmentée de récupération s’accompagne d’un ensemble de défis que les organisations doivent relever. Voici certains des principaux défis à connaître.
Technologie relativement nouvelle, la génération augmentée de récupération exige une compréhension approfondie et un personnel qualifié pour assurer sa mise en œuvre efficace. Cette nouveauté peut entraîner des incertitudes lors du déploiement et de l’intégration avec les systèmes existants.
L’intégration de la RAG dans les infrastructures existantes implique souvent des investissements initiaux dans la technologie et la formation. Les organisations peuvent faire face à des coûts initiaux importants lorsqu’elles acquièrent des ressources et une expertise particulières.
Il est essentiel de déterminer les façons les plus efficaces de modéliser et de structurer les données à utiliser dans un système RAG. Pour ce faire, il faut sélectionner les bonnes sources de données et les bons formats qui correspondent aux besoins organisationnels et aux capacités du GML.
Il est essentiel d’établir des exigences claires relativement aux processus qui utiliseront la RAG. Cela comprend la définition des objectifs et des résultats attendus de la mise en œuvre d’applications axées sur la RAG.
Il est essentiel de créer des processus pour corriger les inexactitudes potentielles dans les sorties générées par les systèmes RAG. Cela signifie qu’il faut élaborer des mécanismes pour repérer, corriger et apprendre des erreurs afin d’améliorer la fiabilité des réponses.
La RAG offre plusieurs avantages indéniables qui peuvent améliorer considérablement les capacités des systèmes d’IA.
- Mise en œuvre efficace et rentable
La RAG permet aux organisations de tirer parti des bases de données et des sources de connaissances existantes sans avoir à entraîner de nouveau les modèles de manière approfondie. Cela signifie que la mise en œuvre est à la fois rapide et rentable. - Renseignements précis et à jour
En récupérant l’information de sources faisant autorité en temps réel, la RAG fait en sorte que les données utilisées pour générer des réponses sont précises et à jour, afin d’améliorer la qualité des sorties. - Confiance accrue des utilisateurs
La précision et la pertinence des renseignements fournis par les systèmes RAG aident à renforcer la confiance des utilisateurs, car les réponses sont plus fiables et fondées sur des données vérifiées. - Contrôle accru pour les développeurs
Les développeurs disposent d’un contrôle accru sur les réponses générées par les systèmes d’IA au moyen des GML. Ils peuvent préciser les sources à partir desquelles l’information est récupérée et adapter les sorties aux besoins et contextes particuliers. - Réduction des réponses imprécises et des hallucinations
En fondant les réponses sur des données factuelles, la RAG réduit considérablement la probabilité de générer des réponses incorrectes ou inventées, communément appelées « hallucinations » dans la terminologie de l’IA. - Production de réponses pertinentes et propres à un domaine
La RAG excelle également dans la production de réponses adaptées fondées sur les connaissances particulières d’un secteur ou de domaines spécialisés. Cela la rend très efficace pour les applications ciblées. - Entraînement simplifié
Les modèles RAG peuvent être très simples à entraîner, car ils utilisent des bases de connaissances et des données existantes, ce qui réduit la complexité et l’intensité des ressources nécessaires au processus d’entraînement.
Voici une explication détaillée du fonctionnement de la RAG.
Le processus de la RAG commence par la cueillette de données provenant de diverses sources, comme des sites Web, des bases de données ou des documents. Ces données sont ensuite converties en un format que le modèle peut rechercher et utiliser, créant ainsi une sorte de bibliothèque de connaissances externes.
Lorsqu’un utilisateur pose une question, la RAG transforme cette question en formulaire interrogeable et trouve l’information la plus pertinente dans sa bibliothèque de connaissances. Par exemple, si une personne pose des questions sur son solde de jours de congé, la RAG trouvera et utilisera les politiques de l’entreprise relatives aux vacances ainsi que l’historique personnel des congés de la personne.
Ensuite, la RAG combine la première question de l’utilisateur avec l’information qu’elle vient de trouver. Cette information combinée est ensuite transmise au GML, qui l’utilise pour fournir une réponse plus précise et plus éclairée.
Pour que les réponses demeurent pertinentes, la RAG met régulièrement à jour ses sources de données externes. Il est possible de réaliser cette étape automatiquement ou à des heures prévues, afin de veiller à ce que l’information utilisée soit toujours à jour.
La mise en œuvre d’un système de génération augmentée de récupération comporte plusieurs étapes clés. En suivant ces étapes, un système RAG améliore efficacement la capacité d’un GML à générer des réponses qui sont non seulement fondées sur ses connaissances internes, mais aussi éclairées par des données externes à jour.
La première étape consiste à recueillir et à préparer les données qui seront utilisées par le système RAG. Les données doivent ensuite être nettoyées et formatées correctement pour assurer la cohérence et l’exactitude. Cette étape peut comprendre la suppression des doublons et la résolution de tout problème lié à la qualité des données.
Une fois que les données sont préparées, elles doivent être indexées pour faciliter la recherche. Cela signifie qu’il faut créer un format structuré, souvent dans une base de données ou un index de recherche, où chaque élément de données est marqué par des mots clés précis ou converti en représentation numérique. Ce processus d’indexation détermine l’efficacité avec laquelle le système peut récupérer les renseignements pertinents aux étapes ultérieures.
Grâce à l’indexation des données, le système RAG peut désormais récupérer les renseignements pertinents en fonction des requêtes des utilisateurs. Cette étape consiste à faire correspondre la requête ou certains mots clés de la requête aux données indexées. Des algorithmes avancés sont utilisés pour veiller à ce que les données les plus pertinentes et les plus précises soient récupérées afin d’être utilisées dans la génération de réponses.
Enfin, les données récupérées sont intégrées au flux de travail du GML. Cette étape consiste à configurer le GML pour qu’il accepte l’entrée de l’utilisateur ainsi que les données récupérées dans le cadre de son invite d’entrée. Le GML utilise ensuite à la fois ses connaissances acquises avant l’entraînement et les données externes récemment récupérées pour produire des réponses plus précises.
Pour améliorer la performance d’un système RAG, il faut envisager de mettre en œuvre les stratégies suivantes :
Fournir des données de grande qualité
Des données épurées et précises aident à prévenir le problème courant « à entrées inexactes, sorties erronées ». Cela comprend la suppression des balises non pertinentes et l’assurance que les données sont à jour. Cela signifie également qu’il faut maintenir l’intégrité des données (comme préserver les en-têtes importants des feuilles de calcul). Des données de grande qualité améliorent la capacité de compréhension et de génération de réponses pertinentes du GML.Expérimenter avec différentes tailles de blocs de texte
La façon dont les données sont segmentées en blocs peut avoir une incidence importante sur la performance de votre système RAG. Les plus petits blocs peuvent manquer de contexte, tandis que les plus gros peuvent être difficiles à être traités efficacement par le modèle. La mise à l’essai de tailles de blocs différentes peut vous aider à trouver l’équilibre optimal qui maintient le contexte sans surcharger le système.Mettre à jour l’invite du système
L’invite que vous utilisez pour engager le GML peut avoir une influence sur les sorties. Si les résultats ne sont pas satisfaisants, il faut envisager de réviser l’invite pour mieux préciser comment le modèle devrait interpréter et utiliser les données fournies. Il pourrait s’agir de clarifier le contexte ou d’ajuster la formulation pour mieux orienter le modèle.Filtrer les résultats de votre base de données vectorielles
Le filtrage des résultats récupérés à partir de votre base de données vectorielles peut améliorer la pertinence et la précision. Par exemple, vous pouvez définir des filtres pour exclure ou hiérarchiser certains types de documents en fonction des métadonnées, comme le type de document ou la date de publication. Cela permet de s’assurer que l’information récupérée est la plus pertinente pour la requête.Essayer différents modèles d’intégration
Le traitement et la représentation des données varient selon le modèle d’intégration. En expérimentant divers modèles, vous pourrez déterminer celui qui répond le mieux à vos besoins particuliers. De plus, vous devez penser à peaufiner vos propres modèles d’intégration en utilisant votre ensemble de données pour rendre le modèle plus adapté à la terminologie et aux nuances particulières de votre domaine.
En appliquant ces stratégies avec soin, vous pouvez améliorer considérablement l’efficacité et la précision de votre système RAG pour obtenir une meilleure performance et des résultats plus fiables.
La génération augmentée de récupération réalise actuellement des progrès importants dans l’amélioration des capacités des applications d’IA conversationnelles en fournissant des réponses plus pertinentes sur le plan contextuel. Cependant, les applications futures potentielles de la RAG vont bien au-delà des utilisations actuelles.
À l’avenir, la technologie RAG pourrait évoluer pour permettre à l’IA générative non seulement de fournir des renseignements, mais aussi de prendre les mesures pertinentes en fonction du contexte des entrées des utilisateurs et des données externes. Par exemple, une IA améliorée par la RAG pourrait analyser diverses options pour trouver la meilleure location de vacances, réserver des chambres d’hôtel automatiquement lors d’événements précis et même traiter les préparatifs de voyage connexes, tout cela en réponse à la demande d’un utilisateur.
Bien sûr, la RAG pourrait même faire progresser la profondeur de l’interaction dans des domaines informationnels plus complexes. Par exemple, au-delà du simple fait d’informer un employé des politiques de remboursement des frais de scolarité, la RAG pourrait intégrer des conseils détaillés et personnalisés sur les programmes d’éducation pertinents qui correspondent aux objectifs de carrière et à la formation antérieure de l’employé. Elle pourrait également faciliter le processus de candidature dans le cadre de ces programmes et gérer les tâches administratives subséquentes, comme la présentation des demandes de remboursement.
À mesure que la technologie liée à la RAG progresse, son intégration à l’IA pourrait redéfinir les limites de l’assistance automatisée et du soutien à la prise de décisions.
La génération augmentée de récupération vise à améliorer les capacités de l’IA dans un large éventail de secteurs. Now PlatformMD de ServiceNow intègre des technologies d’IA comme l’apprentissage machine et la compréhension du langage naturel pour simplifier les opérations, automatiser les tâches et améliorer la prise de décisions. Grâce aux systèmes RAG, ServiceNow peut offrir des solutions d’IA encore plus précises et plus adaptées au contexte, ce qui accroît la productivité et l’efficacité dans divers flux de travail.
Pour en savoir plus sur la façon dont ServiceNow peut transformer vos opérations commerciales grâce aux technologies d’IA avancées, demandez une démonstration de ServiceNow dès aujourd’hui.