Que sont les modèles de transformeurs?
Les modèles de transformeurs sont des modèles de réseau neuronal qui apprennent le contexte et le sens en suivant les relations dans les données grâce à un mécanisme appelé autoattention. Ils sont capables d’identifier des connexions subtiles, ce qui leur permet de prendre des séquences d’entrée et de les utiliser pour créer des sorties pertinentes. Les transformeurs ont révolutionné l’IA en permettant des performances novatrices dans le traitement du langage naturel, la vision par ordinateur et l’IA générative dans les grands modèles de langage, la traduction et le raisonnement complexe.
Démonstration de l’IA
Ce qu’il faut savoir sur les modèles de transformeurs
Quelle est l’origine des modèles de transformeurs? Quels sont les différents types de modèles de transformeurs? En quoi les transformeurs sont-ils différents des autres réseaux neuronaux? Pourquoi les transformeurs sont-ils importants? Quels sont les principaux composants d’un transformeur? Comment fonctionnent les transformeurs? Quels sont les cas d’utilisation des transformeurs? Modèles de transformeurs dans la plateforme ServiceNow
En intelligence artificielle, comprendre et traiter avec précision le langage humain a toujours été un défi de taille. Les modèles traditionnels avaient du mal à saisir les complexités et les nuances, échouant souvent dans les tâches nécessitant une compréhension contextuelle. Ce besoin, c’est-à-dire la demande de modèles linguistiques plus sophistiqués, s’est accru à mesure que des applications telles que la traduction en temps réel et les assistants virtuels intelligents se sont intégrées dans la vie quotidienne. Mais fondamentalement, le problème dépassait le cadre du langage pour s’étendre à d’autres aspects de l’IA : la difficulté d’identifier et de comprendre les relations entre les points de données dans des ensembles complexes.
 
Les modèles de transformeurs ont été créés pour résoudre ce problème. Les modèles de transformeurs s’appuient sur des techniques avancées pour comprendre le contexte et les connexions au sein des données. En appliquant des modèles mathématiques détaillés, ils aident un système d’IA à organiser le chaos des entrées afin qu’il puisse en comprendre le sens.
Tout développer Réduire tout Quelle est l’origine des modèles de transformeurs?
Les modèles de transformeurs sont issus d’un article de recherche révolutionnaire publié en 2017 et intitulé « Attention is All You Need », qui présentait une nouvelle architecture de réseau neuronal utilisant un mécanisme appelé autoattention pour traiter et comprendre le contexte au sein de séquences de données. Le concept d’attention, qui est à la base des transformeurs, a lui-même été introduit en 2014 par Dzmitry Bahdanau et coll. Bahdanau est un chercheur pour Recherche ServiceNow. Le nom « transformeur » a été choisi pour refléter la capacité du modèle à transformer les représentations d’entrée en représentations de sortie plus significatives.
 
Le développement du premier modèle de transformeur a marqué un bond en avant important dans les capacités de l’IA. Le modèle a été formé en moins de quatre jours, ce qui représente une amélioration importante par rapport aux temps de formation plus longs et plus gourmands en ressources des modèles précédents. En association avec la capacité du modèle à établir de nouveaux dossiers de précision dans la traduction automatique, cela a mis en évidence le potentiel des transformeurs.
 
Les transformeurs ont permis de nouvelles avancées dans le traitement du langage naturel (TLN) et ont jeté les bases de futurs grands modèles linguistiques tels que les nouvelles solutions d’IA générative (IAG). L’introduction des transformeurs a non seulement amélioré la précision et l’efficacité du traitement du langage, mais elle a également ouvert la voie à la création d’applications d’IA plus polyvalentes, consolidant ainsi son rôle d’élément essentiel de l’IA moderne.
Présentation de Now Intelligence Découvrez comment ServiceNow donne à l’IA et aux analyses une application concrète pour modifier la façon dont les entreprises travaillent et accélérer la transformation numérique. Obtenir le livre électronique
Quels sont les différents types de modèles de transformeurs?
À mesure que les modèles de transformeurs continuent de se développer pour répondre aux besoins des chercheurs en IA et des informaticiens, ils se spécialisent également de plus en plus. Des catégories et des types distincts de transformeurs évoluent pour répondre à des besoins précis. Voici quelques-unes des architectures que l’on trouve dans les transformeurs modernes :
 
 

BERT

Les modèles de représentations bidirectionnelles encodées à partir de transformeurs (BERT) sont conçus pour comprendre le contexte des mots en fonction des mots qui les entourent dans une phrase. BERT traite le texte de manière bidirectionnelle, capturant les nuances et les relations entre les mots plus efficacement que les modèles précédents. Cette architecture est couramment utilisée pour des tâches telles que la réponse aux questions et l’inférence linguistique.

 

GPT

Les transformeurs génératifs préentraînés (GPT) sont des modèles autorégressifs qui génèrent du texte en prédisant le mot suivant dans une séquence. Les modèles GPT, y compris la célèbre gamme ChatGPT, sont connus pour leur capacité à produire du texte de type humain et sont utilisés dans de nombreuses applications, tant professionnelles que personnelles.

 

BART

Les transformeurs bidirectionnels et autorégressifs (BART) combinent la compréhension bidirectionnelle du contexte de BERT avec la génération de texte autorégressive de GPT. Ils sont efficaces pour des tâches comme la génération de texte, le résumé automatique et la traduction, offrant ainsi une grande polyvalence pour le traitement et la création de contenus textuels cohérents.

 

Transformeurs multimodaux

Les transformeurs multimodaux intègrent des données textuelles et visuelles, permettant aux systèmes d’IA de comprendre et de générer du contenu qui couvre différents types de médias. Ces modèles sont fondamentaux pour les tâches qui nécessitent une interprétation simultanée du texte et des éléments visuels, comme les réponses visuelles aux questions et le sous-titrage des images.

 

ViT

Les transformeurs de vision (ViT) adaptent l’architecture des transformeurs pour le traitement d’images, en traitant celles-ci comme des séquences de petits blocs. Chaque bloc est traité de la même manière que les mots dans un texte, ce qui permet au modèle de capturer les relations contextuelles au sein de l’image. Les ViT sont utilisés dans la classification des images, la détection d’objets et d’autres tâches de vision par ordinateur.
En quoi les transformeurs sont-ils différents des autres réseaux neuronaux?
Les transformeurs sont considérés comme des modèles d’apprentissage profond, ce qui signifie qu’ils entrent dans la catégorie des réseaux neuronaux. Mais cela ne signifie pas qu’ils sont identiques aux autres exemples de cette technologie. Plus précisément, les modèles de transformeurs diffèrent des réseaux neuronaux récurrents (RNR) et des réseaux neuronaux convolutifs (CNN).
 

Transformeurs ou RNR

Les réseaux neuronaux récurrents traitent les données de manière séquentielle, ce qui signifie que chaque jeton est traité l’un après l’autre, et peuvent avoir des difficultés avec les dépendances à long terme car les informations peuvent se perdre sur de longues séquences. Les transformeurs, en revanche, utilisent des mécanismes d’autoattention qui leur permettent de considérer simultanément tous les jetons de la séquence. Ce traitement parallèle permet aux transformeurs de capturer plus efficacement les dépendances à long terme et de s’entraîner plus rapidement qu’il n’est possible avec les RNR.

 

Transformeurs ou CNN

Les réseaux neuronaux convolutifs excellent dans le traitement de données en forme de grille (comme les images) en détectant des motifs locaux. Cependant, les CNN sont moins efficaces pour capturer les relations globales au sein des données. Les transformeurs surmontent cet obstacle en utilisant l’autoattention pour évaluer l’importance des différentes parties des données d’entrée en tant que partie d’un tout plus grand. Alors que les CNN sont principalement utilisés pour des tâches telles que la reconnaissance d’images, les transformeurs ont été adaptés pour le traitement du texte et des images, offrant ainsi un ensemble de solutions plus polyvalent.

 

Pourquoi les transformeurs sont-ils importants?
Comme nous l’avons évoqué plus haut, les transformeurs ont justement permis de transformer le domaine de l’IA, en remédiant à ses principales limites et en ouvrant la voie à des innovations majeures. Les avantages rendus possibles par cette technologie sont nombreux et variés, mais certains des plus importants incluent :
 
Mise à l’échelle des modèles d’IA
Les transformeurs ont une architecture modulaire, avec des couches et des têtes d’attention qui peuvent être facilement mises à l’échelle. Cela permet de créer des modèles à grande échelle capables de traiter efficacement de longues séquences de données. En traitant de longues séquences en parallèle, les transformeurs réduisent considérablement les temps d’apprentissage et de traitement. Cette efficacité permet de développer des modèles avancés (comme BERT et GPT) capables de capturer des représentations linguistiques complexes parmi des milliards de paramètres.
 
Personnalisation efficace des modèles
Des techniques telles que l’apprentissage par transfert et la génération augmentée par récupération (GAR) permettent une personnalisation plus rapide et plus efficace. Préentraînés sur de grands ensembles de données, ces modèles peuvent être affinés sur des ensembles de données plus petits et précis, ce qui permet de personnaliser les applications pour différents secteurs sans avoir à investir massivement, démocratisant ainsi l’accès à l’IA avancée.
 
Intégration de capacités multimodales
Les transformeurs soutiennent le développement de systèmes d’IA multimodaux capables d’interpréter et de générer du contenu à partir de différents types de données, comme la création d’images à partir de descriptions textuelles. En combinant le traitement du langage naturel et la vision par ordinateur, les transformeurs permettent une compréhension et une créativité plus complètes et plus humaines.
 
Faire progresser la recherche et l’innovation en matière d’IA
Les transformeurs sont à l’origine d’avancées importantes dans la recherche sur l’IA et l’innovation industrielle, telles que l’encodage positionnel et les mécanismes d’autoattention. L’encodage positionnel aide les modèles à suivre la position des mots dans une séquence, tandis que l’autoattention leur permet de pondérer l’importance des différents mots en fonction de leur pertinence par rapport au contexte global. Ces innovations ont conduit au développement accéléré de nouvelles architectures et applications d’IA.
Quels sont les principaux composants d’un transformeur?
Tout comme les entrées qu’ils reçoivent, les modèles de transformeurs sont complexes et sophistiqués, construits à partir de plusieurs couches logicielles qui fonctionnent de manière coordonnée pour produire des résultats intelligents et pertinents. Chacun des composants suivants est essentiel à ce processus :

 

  • Vecteurs d’intégration de l’entrée
  • Les vecteurs d’intégration de l’entrée convertissent les séquences d’entrée en vecteurs mathématiques que les modèles d’IA peuvent traiter. Les jetons (tels que les mots) sont transformés en vecteurs qui transportent des informations sémantiques et syntaxiques apprises pendant l’entraînement.

  • Encodage positionnel
  • L’encodage positionnel ajoute des signaux uniques à l’intégration de chaque jeton pour indiquer sa position dans la séquence. Cela permet au modèle de préserver l’ordre des jetons et de comprendre leur contexte dans la séquence.

  • Bloc transformeur
  • Chaque bloc transformeur se compose d’un mécanisme d’autoattention multitête et d’un réseau neuronal à propagation directe. L’autoattention pondère l’importance des différents jetons, tandis que le réseau à propagation directe traite ces informations.

  • Blocs linéaires et fonction softmax
  • Le bloc linéaire mappe des représentations internes complexes vers le domaine d’entrée d’origine. La fonction softmax convertit ensuite la sortie en une distribution de probabilité, représentant la confiance du modèle dans chaque prédiction possible.

 

Comment fonctionnent les transformeurs?
Transformer des séquences d’entrée complexes en des sorties pertinentes n’est pas une tâche simple; cela repose sur plusieurs étapes essentielles qui intègrent les composants clés identifiés ci-dessus. Ces couches logicielles tentent de reproduire la fonction du cerveau humain, fonctionnant ensemble pour donner au système la puissance de traitement dont il a besoin pour résoudre des problèmes difficiles. Ces réseaux neuronaux traitent chaque partie des données en séquence simultanément. Au fur et à mesure, les données passent par les étapes suivantes :

 

  1. La séquence d’entrée est convertie en représentations numériques appelées vecteurs d’intégration, qui capturent le sens sémantique des jetons.

  2. L’encodage de position ajoute des signaux uniques à l’intégration de chaque jeton afin de préserver l’ordre des jetons dans la séquence.

  3. Le mécanisme d’attention multitête traite ces vecteurs d’intégration pour capturer différentes relations entre les jetons.

  4. La normalisation des couches et les connexions résiduelles stabilisent et accélèrent le processus d’entraînement.

  5. La sortie de la couche d’autoattention est ensuite transmise à des réseaux neuronaux à propagation directe pour des transformations non linéaires.

  6. Plusieurs blocs de transformeurs sont empilés, chacun améliorant la sortie de la couche précédente.

  7. Pour les tâches comme la traduction automatique, un module de décodage distinct génère la séquence de sortie.

  8. Le modèle est entraîné à l’aide de l’apprentissage supervisé, afin de minimiser l’écart entre les prédictions et la vérité terrain.

  9. Lors de l’inférence, le modèle entraîné traite de nouvelles séquences d’entrée pour générer des prédictions ou des représentations.
Quels sont les cas d’utilisation des modèles de transformeurs?
Les transformeurs ont des applications presque illimitées dans les entreprises, permettant d’automatiser des tâches complexes de traitement des données, d’améliorer les interactions avec les clients et de stimuler l’innovation dans des domaines tels que la santé, les finances et les industries créatives. Parmi les utilisations les plus importantes des modèles de transformeurs, on retrouve :

 

  • Traitement du langage naturel
  • Les transformeurs permettent aux machines de comprendre, d’interpréter et de générer le langage humain avec plus de précision. Cela soutient des applications telles que la synthèse de documents et les assistants virtuels, qui reposent sur une compréhension précise du langage.

  • Traduction automatique
  • Les transformeurs rendent possibles des traductions multilingues en temps réel avec une grande précision. Leur capacité à saisir le contexte et à gérer les dépendances à long terme améliore nettement la qualité des traductions, surtout en comparaison avec les anciennes méthodes basées sur des correspondances mot à mot.

  • Reconnaissance vocale
  • Les applications de reconnaissance vocale, qui convertissent la parole en texte, sont bonifiées grâce aux transformeurs. Cela est particulièrement utile pour développer des applications à commande vocale et améliorer l’accessibilité pour les personnes malentendantes.

  • Génération d’images
  • Les modèles de génération d’images utilisent les transformeurs pour créer du contenu visuel à partir de descriptions textuelles, alliant ainsi traitement du langage naturel et vision artificielle. Cette capacité est notamment utilisée dans les domaines créatifs, le marketing et plus encore.

  • Analyse de séquence d’ADN
  • En considérant les séquences d’ADN comme du texte, les transformeurs peuvent être entraînés à détecter des mutations génétiques, à repérer des motifs récurrents et à identifier des segments associés à certaines maladies.

  • Analyse de la structure des protéines
  • Grâce à leur aptitude à modéliser les séquences d’acides aminés, les transformeurs peuvent prédire la structure tridimensionnelle des protéines. Cette capacité est cruciale pour la découverte de médicaments et pour une meilleure compréhension des mécanismes biologiques.

Tarification de ServiceNow ServiceNow offre des ensembles de produits concurrentiels qui s’adaptent au fur et à mesure que votre entreprise grandit et que vos besoins changent. Obtenir un devis
Modèles de transformeurs dans la plateforme ServiceNow
Grâce à des capacités avancées en traitement du langage naturel, en traduction automatique, en reconnaissance vocale et bien plus, les transformeurs ont changé à jamais la façon dont les entreprises exploitent l’IA, améliorant les opérations dans tous les secteurs et marchés. Cela dit, toutes les approches en IA ne tirent pas pleinement parti du potentiel des transformeurs.
 
ServiceNow se positionne comme un partenaire clé pour utiliser efficacement l’IA afin d’optimiser les processus d’affaires. Basée sur la plateforme Now Platform® enrichie par l’IA, la gamme d’applications de ServiceNow intègre des modèles de transformeurs pour offrir un accès simplifié à la compréhension du langage, à l’analyse prédictive, à l’automatisation des flux de travail, et plus encore. Ces outils permettent aux organisations de simplifier leurs opérations comme jamais auparavant, d’améliorer leurs interactions avec la clientèle, d’obtenir des aperçus clairs et de transformer des données complexes en avantage concurrentiel réel.
 
Découvrez comment les transformeurs peuvent transformer votre organisation pour le mieux; essayez ServiceNow dès aujourd’hui!

 

Explorez les flux de travail IA Découvrez comment la plateforme ServiceNow permet d’exploiter l’IA dans tous les domaines de votre entreprise. Explorer l’IA générative Nous contacter
Ressources Articles Qu’est-ce que l’IA?  Qu’est-ce que l’IA générative? Rapports d’analyste IDC InfoBrief : Maximisez la valeur de l’IA avec une plateforme numérique IA générative dans les opérations informatiques Mise en œuvre de l’IA générative dans l’industrie des télécommunications Fiches techniques Recherche IA Prédisez et prévenez les pannes avec Predictive AIOps de ServiceNowMD Gestion des ressources Livres électroniques Modernize IT Services and Operations with AI (Moderniser les services et les opérations informatiques avec l’IA) L’IA générative : Un enjeu majeur? Unleash Enterprise Productivity with GenAI (Optimisez la productivité dans toute l’entreprise avec l’IA générative) Livres blancs Indice de maturité de l’IA de l’entreprise IA générative pour les télécommunications