Qu’est-ce qu’un réseau neuronal récurrent (RNR)?

Un réseau neuronal récurrent (RNR) est un réseau neuronal d’apprentissage profond formé pour convertir des entrées séquentielles en sorties séquentielles précises. Un réseau neuronal traditionnel n’est pas capable de se souvenir des données passées, ce qui rend le RNR utile.

Démonstration de l’IA
Ce qu’il faut savoir sur le réseau neuronal récurrent
Introduction aux RNR Quels sont les différents types de réseaux neuronaux récurrents? Qu’est-ce qu’un RNR par rapport à un réseau neuronal à propagation avant? Quelles sont les variantes de l’architecture des réseaux neuronaux récurrents? Applications du RNR Quels sont les défis liés au RNR? Quels sont les avantages du RNR? Comment fonctionne le RNR? Comment mettre en œuvre le RNR ServiceNow en tant que solution de rechange efficace aux réseaux neuronaux récurrents

Un réseau neuronal est un système informatique inspiré de la structure du cerveau humain, composé de neurones artificiels. Ces réseaux sont conçus pour reproduire les processus décisionnels humains. Cependant, les réseaux neuronaux traditionnels traitent généralement chaque entrée indépendamment, sans avoir la capacité de tenir compte de la séquence ou du contexte des données. Par exemple, dans le traitement des mots « pomme rouge », un réseau neuronal standard ne reconnaîtrait pas « rouge » comme attribut décrivant la pomme; il manque complètement le lien contextuel entre les deux.

Il s’agit d’une limitation majeure, qui pourrait facilement empêcher les machines de développer quelque chose de proche de ce que l’on pourrait considérer comme de l’intelligence. Pour remédier à ce problème, les chercheurs ont mis au point des réseaux neuronaux récurrents (RNR). Contrairement aux modèles traditionnels, les RNR intègrent des mécanismes de rétention des informations sur plusieurs périodes, ce qui leur permet de conserver la mémoire des entrées précédentes. Cette capacité permet aux RNR de comprendre les séquences et les contextes au sein des données, ce qui les rend particulièrement utiles pour les tâches où l’ordre est crucial, comme le traitement du langage ou l’analyse des séries temporelles.

 

Tout développer Réduire tout Introduction aux RNR

Un réseau neuronal récurrent est conçu comme une forme de prise de décision de l’IA capable de reconnaître et de retenir la séquence dans laquelle les données apparaissent. Il s’agit d’une caractéristique essentielle pour le traitement d’informations séquentielles telles que du texte, des chiffres ou des données chronologiques. Contrairement aux réseaux neuronaux traditionnels, qui traitent chaque entrée de manière indépendante, les RNR peuvent relier les informations précédentes aux entrées actuelles, ce qui permet une compréhension plus nuancée des séquences de données.

Si le concept de réseau neuronal récurrent a changé la donne lorsqu’il a été introduit, jetant les bases de la création de modèles d’apprentissage profond, il est en grande partie remplacé par l’intelligence artificielle basée sur les transformateurs et les grands modèles de langage (GML). Ces nouveaux développements sont plus efficaces dans le traitement des données séquentielles.

Présentation de Now Intelligence Découvrez comment ServiceNow donne à l’IA et aux analyses une application concrète pour modifier la façon dont les entreprises travaillent et accélérer la transformation numérique. Obtenir le livre électronique
Quels sont les différents types de réseaux neuronaux récurrents?

Les RNR sont distingués par leur capacité à traiter les séquences de données en reconnaissant les relations et les dépendances entre les éléments individuels. Bien que tous les RNR partagent cette caractéristique fondamentale, chacune des catégories suivantes est conçue pour répondre à des types précis de problèmes de traitement des données. Voici les quatre principaux types :

  • Un à un
    La forme la plus simple d’un réseau RNR, un à un, décrit les réseaux où une entrée est traitée pour générer une sortie. Ce modèle sert de base aux architectures RNR plus complexes.

  • Un à plusieurs
    Dans cette configuration, une seule entrée génère plusieurs sorties. Ce type de RNR est idéal pour les tâches où une entrée peut déclencher une série de sorties connexes, mais distinctes, comme générer une phrase à partir d’un seul mot descriptif ou produire une mélodie à partir d’une note musicale.

  • Plusieurs à un
    Le modèle plusieurs à un traite plusieurs points de données d’entrée pour produire une seule sortie. Il est couramment utilisé dans des applications comme l’analyse des sentiments, où divers mots (intrants) contribuent à déterminer le sentiment global (extrant) d’une phrase ou d’un document.

  • Plusieurs à plusieurs
    Cette dernière variante traite les séquences à la fois dans les entrées et les sorties. Elle convient à des tâches telles que la traduction linguistique, où une séquence de mots en entrée dans une langue est convertie en une séquence en sortie dans une autre langue. Ce modèle peut également traiter des situations où les séquences d’entrée et de sortie diffèrent en longueur.

Qu’est-ce qu’un RNR par rapport à un réseau neuronal à propagation avant?

Un réseau neuronal qui ne comporte pas de nœuds en boucle est appelé un réseau neuronal à propagation avant. Ces types de réseaux sont semblables aux RNR, car les deux modèles tentent de traiter les données de manière humaine avec de nombreux nœuds interconnectés. Toutefois, un réseau neuronal à propagation avant ne transmet l’information que vers l’avant, et le modèle ne peut pas se souvenir de toute information d’entrée antérieure. En utilisant l’exemple ci-dessus, ce modèle ne se souviendra pas de « pomme » au moment où il aura traité « rouge ».

Au lieu de cela, le réseau neuronal à propagation avant fonctionne en déplaçant l’information de la couche d’entrée à la couche de sortie, y compris les couches cachées. Ce type de modèle fonctionne bien pour la classification des images où l’entrée et la sortie sont indépendantes. Toutefois, ce réseau diffère du RNR parce qu’il ne peut pas se rappeler la séquence comme un réseau récurrent peut le faire.

Quelles sont les variantes de l’architecture des réseaux neuronaux récurrents?

L’architecture RNR comporte trois principales variantes, chacune adaptée de la structure de base pour améliorer la fonctionnalité et la performance pour des tâches spécifiques. Cette souplesse de conception aide à répondre aux exigences uniques de diverses tâches de traitement de séquence de données. Les variantes suivantes modifient la façon dont les données sont traitées et transmises, ce qui permet des applications plus spécialisées dans un grand nombre de domaines :

Réseaux neuronaux récurrents bidirectionnels

Un réseau neuronal récurrent bidirectionnel (RNRB) traite les séquences de données vers l’avant et vers l’arrière. La couche vers l’avant fonctionne de manière très similaire à la première couche du RNR, mais la couche vers l’arrière fonctionne différemment pour déplacer l’information dans une seconde direction. La combinaison des deux couches augmente la précision des prévisions.

Mémoire à long et court terme

La mémoire à long et court terme (LSTM) est un modèle conçu pour offrir une mémoire plus longue. Un RNR de base ne peut mémoriser que la dernière entrée immédiate. La LSTM peut utiliser les entrées des séquences précédentes pour améliorer la précision de ses prévisions. Voici un exemple simplifié de saisie de données : La pomme est rouge. Ann aime seulement les pommes rouges. Une LSTM se souviendra que la pomme est rouge lors du traitement de l’information sur les types de pommes qui sont importants dans cette situation. Un RNR ne se souviendra pas que la pomme est rouge, car cette information a été présentée dans une séquence précédente.

Unités récurrentes fermées

Une unité récurrente fermée (GRU) est une variante sophistiquée du réseau neuronal récurrent standard conçue pour traiter certaines des limitations liées à la rétention de la mémoire. Les GRU intègrent des portes, c’est-à-dire des mécanismes qui régulent le flux d’informations. Il s’agit notamment de la porte de mise à jour, qui détermine la quantité d’informations passées (des étapes précédentes) à retenir, et de la porte de réinitialisation, qui décide de la quantité d’informations passées à oublier. Cela permet aux GRU de conserver ou d’éliminer l’information de façon sélective, ce qui les rend très efficaces pour les tâches où il est essentiel de comprendre le contexte ou la séquence des événements.

Applications du RNR

Les RNR sont très polyvalents dans le traitement des données qui impliquent des séquences, ce qui les rend adaptés à une grande variété d’applications. Voici quelques-unes des utilisations les plus courantes :

  • Modélisation du langage et génération de texte 
    Les RNR peuvent prédire le prochain mot d’une phrase en fonction des mots précédents, ce qui est crucial pour les tâches comme l’achèvement automatique dans les moteurs de recherche ou la génération automatique de texte lisible.

  • Reconnaissance vocale 
    Ces réseaux peuvent traiter les données audio au fil du temps, ce qui les rend parfaits pour reconnaître les mots prononcés en temps réel et les convertir en texte, comme dans les assistants virtuels et les applications mobiles de transcription automatique de la parole.

  • Traduction automatique 
    Les RNR peuvent analyser des séquences de mots dans une langue et les convertir en une autre, en maintenant l’exactitude grammaticale et contextuelle dans le processus de traduction.

  • Reconnaissance d’images 
    Bien qu’ils ne soient pas aussi courants que les autres modèles comme les réseaux neuronaux à convolution (CNN) pour cette tâche, les RNR peuvent être utilisés pour analyser des séquences au sein d’images, comme lire du texte écrit à la main ou traiter des séquences vidéo de façon séquentielle.

  • Prévision des séries de temps 
    Les RNR sont bien adaptés pour prédire les valeurs futures d’une série en fonction des données historiques, applicables dans des domaines comme les prévisions du marché boursier, les prévisions météorologiques et les prévisions de la demande dans le commerce de détail.

Quels sont les défis liés au RNR?

L’utilisation des RNR pose certains problèmes, ce qui explique en partie pourquoi ils ont été remplacés par des réseaux neuronaux plus récents et des variantes. Voici quatre des principaux obstacles à l’utilisation d’un réseau neuronal récurrent : 

  • Explosion du gradient
    Le gradient fait référence à la sensibilité du taux d’erreur par rapport aux paramètres du modèle. Si le gradient augmente de façon exponentielle, il peut devenir instable. Lorsque cela se produit, on parle d’explosion du gradient. Ce type d’erreur peut conduire à un surapprentissage, un phénomène où le modèle prédit avec précision les données d’entraînement, mais ne parvient pas à faire de même avec des données du monde réel.

  • Gradient qui disparaît
    Ce problème survient lorsque les valeurs du gradient diminuent jusqu’à presque zéro pendant l’entraînement, ce qui ralentit considérablement le processus d’apprentissage ou l’arrête complètement. Un gradient qui disparaît rend difficile pour le RNR de capturer et d’apprendre efficacement des données d’entraînement, ce qui conduit souvent à un sous-apprentissage, où le modèle n’arrive pas à prédire correctement les nouvelles données.

  • Difficulté à traiter de longues séquences
    Les RNR peuvent avoir des difficultés avec de longues séquences de données. Cette limitation survient parce que l’information pertinente peut être diluée au fil de longues séquences, entravant ainsi la capacité du modèle à apprendre efficacement à partir de ces données.

  • Temps d’entraînement long
    Étant donné qu’un RNR traite les données de manière séquentielle, il ne peut pas traiter de grandes quantités d’informations simultanément. Ce traitement séquentiel entraîne des temps d’entraînement plus longs, rendant les RNR moins efficaces par rapport à d’autres modèles capables de traiter des données en parallèle, tels que les transformeurs.

Quels sont les avantages du RNR?

En plus de la capacité à traiter l’information de façon séquentielle, il y a quelques autres avantages principaux à se fier à un réseau neuronal récurrent :

  • Les RNR sont équipés de structures comme des unités de mémoire à long et court terme (LSTM) qui leur permettent de se souvenir de l’information sur de longues périodes. Cette fonctionnalité est essentielle pour les tâches où il est nécessaire de comprendre le contexte passé pour faire des prédictions précises sur les événements futurs.

  • Les RNR peuvent être combinés aux réseaux neuronaux à convolution (CNN) pour améliorer leur capacité de traitement des données spatiales, comme les images et les vidéos. Cette combinaison permet non seulement aux RNR de reconnaître les schémas au fil du temps, mais aussi d’étendre leur champ de vision en termes de données de pixels, améliorant ainsi l’analyse des séquences dans les entrées visuelles.

  • Contrairement à de nombreuses autres architectures de réseau neuronal, les RNR peuvent traiter des séquences d’entrée de différentes longueurs sans avoir besoin de réorganiser ou de redimensionner les entrées. Cela les rend très polyvalents pour les applications telles que la reconnaissance vocale, où la durée des données d’entrée peut varier considérablement.

  • Les RNR sont intrinsèquement conçus pour traiter des séquences où le moment entre les événements est crucial. Cela les rend exceptionnellement utiles pour des applications comme la prédiction du prix des actions, la composition musicale et d’autres analyses sensibles au temps où la séquence et le moment des points de données historiques sont essentiels pour prédire l’avenir.

Comment fonctionne le RNR?

Comme indiqué, les RNR sont composés de neurones artificiels conçus pour imiter la prise de décision humaine. Ces neurones artificiels sont des nœuds de traitement des données qui travaillent ensemble pour effectuer des tâches complexes. Les neurones sont organisés en plusieurs couches principales : l’entrée, la sortie et les couches cachées. La couche d’entrée reçoit l’information à traiter, et la couche de sortie fournit le résultat. Le traitement, l’analyse et la prédiction des données ont lieu dans la couche cachée.

Couche cachée

Un RNR fonctionne en transmettant les données séquentielles qu’il reçoit à travers les couches cachées une étape à la fois. Il existe toutefois une fonctionnalité de flux de travail récurrent ou de boucle interne dans la couche cachée. La couche cachée peut mémoriser et utiliser les entrées précédentes pour les prévisions futures dans sa mémoire à court terme. L’entrée actuelle sera stockée dans la mémoire pour prédire la prochaine séquence.

Par exemple, prenons la séquence : La pluie est mouillée. Les utilisateurs veulent qu’un RNR prévoie l’idée de « mouillé » lorsqu’il reçoit l’entrée « pluie ». La couche cachée traiterait et stockerait l’idée de « pluie ». Une copie est stockée dans sa mémoire. Ensuite, lorsqu’il reçoit « mouillé », il peut se rappeler de « pluie » à partir de sa mémoire et créer une séquence complète. Cette information peut alors être utilisée pour améliorer la précision. Cette fonction est ce qui rend un RNR utile dans la reconnaissance vocale, la traduction et d’autres tâches de modélisation du langage.

Éliminer les coûts superflus

Les ingénieurs en apprentissage machine forment souvent des réseaux neuronaux comme les RNR en alimentant les données d’entraînement du modèle, puis en affinant ses performances. Les neurones dans les modèles neuronaux se voient attribuer des « poids » qui indiquent l’influence des informations apprises pendant l’entraînement lorsqu’il s’agit de prédire la sortie. Chaque couche dans un RNR partagera initialement le même poids.

Les ingénieurs ajustent ensuite ces poids à mesure que le modèle apprend pour déterminer la précision des prédictions. Pour ce faire, ils utilisent une technique appelée rétropropagation à travers le temps (BPTT) pour calculer l’erreur du modèle et ajuster les poids en conséquence. Les ingénieurs peuvent ainsi identifier quel état caché dans la séquence cause une erreur significative et réajuster le poids pour réduire la marge d’erreur.

Comment mettre en œuvre le RNR

Les ingénieurs en apprentissage machine construisent un réseau neuronal récurrent en utilisant leur langage de programmation préféré, comme Python. Indépendamment de la méthode choisie, voici les étapes générales pour mettre en œuvre un RNR :

  • Créer la couche d’entrée
    La première étape consiste à créer une couche qui peut recueillir des données d’entrée. Cette couche est composée de neurones artificiels.

  • Créer des états cachés
    Les modèles RNR peuvent avoir plusieurs couches cachées qui effectuent le traitement réel pour le réseau neuronal. Ces couches sont également constituées de neurones artificiels interconnectés. Cela permet d’imiter les capacités de prédiction humaines et de rendre possible le séquençage.

  • Créer la couche de sortie
    Cette dernière couche prédit les résultats. Certains modèles pourraient également contenir d’autres couches en aval.

  • Entraînement avec des poids
    Les paramètres exacts et les marges d’erreur sont créés après que les ingénieurs ont formé le modèle avec des données. Il faut parfois du temps pour ajuster précisément les poids et éviter les gradients qui disparaissent ou explosent.

Tarification de ServiceNow ServiceNow offre des ensembles de produits concurrentiels qui s’adaptent au fur et à mesure que votre entreprise grandit et que vos besoins changent. Obtenir un devis
ServiceNow en tant que solution de rechange efficace aux réseaux neuronaux récurrents

Les réseaux neuronaux récurrents ont jeté des bases solides pour le traitement des données séquentielles. Cependant, ils présentent des limitations qui ont conduit de nombreuses entreprises à se tourner vers des modèles plus récents et plus avancés ainsi que l’intelligence artificielle pour répondre à leurs besoins. C’est pourquoi Now PlatformMD de ServiceNow utilise l’apprentissage machine avancé et l’IA générative. Cela inclut des infrastructures d’apprentissage machine, la compréhension du langage naturel, la recherche et l’automatisation, ainsi que l’analyse et l’exploration des processus; des technologies d’IA innovantes et en périphérie qui travaillent ensemble pour faire croître votre entreprise.

Demandez une démonstration de ServiceNow dès aujourd’hui pour voir comment les nouvelles solutions de réseaux neuronaux peuvent être votre prochaine étape sur le chemin de la réussite.

Plongez plus profondément dans l’IA générative Accélérez votre productivité grâce à Now Assist, l’IA générative intégrée à Now Platform. Découvrir l’IA Nous contacter
Ressources Articles Qu’est-ce que l’IA? Qu’est-ce que l’IA générative? Qu’est-ce qu’un GML? Rapports d’analyste IDC InfoBrief : Maximisez la valeur de l’IA avec une plateforme numérique IA générative dans les opérations informatiques Mise en œuvre de l’IA générative dans l’industrie des télécommunications Fiches techniques Recherche IA Prédisez et prévenez les pannes avec Predictive AIOps de ServiceNowMD Livres électroniques Modernize IT Services and Operations with AI (Moderniser les services et les opérations informatiques avec l’IA) GenAI: Is it really that big of a deal? (IA générative : Est-ce vraiment si important?) Unleash Enterprise Productivity with GenAI (Optimisez la productivité dans toute l’entreprise avec l’IA générative) Livres blancs Indice de maturité de l’IA de l’entreprise IA générative pour les télécommunications