Un réseau antagoniste génératif (GAN) est un modèle d’IA composé de deux réseaux neuronaux, le générateur et le discriminateur, qui s’affrontent pour améliorer leurs fonctions. Le générateur crée de fausses données ressemblant au jeu d’entraînement, tandis que le discriminateur tente de déterminer si les données sont authentiques.
L’IA générative (GenAI) représente l’une des avancées les plus importantes de ces dernières années en matière d’intelligence artificielle. En apparence, ce bond en avant peut sembler soudain, transformant le monde avec des solutions d’IA puissantes, performantes et largement disponibles. Cependant, la réalité est tout autre : les nouvelles options génératives de l’IA sont le résultat de décennies de recherche et de développement de plusieurs technologies sous-jacentes. Le concept de réseau antagoniste génératif, ou GAN, est l’une de ces innovations qui ont joué un rôle essentiel dans la structuration du paysage de l’intelligence artificielle.
Les origines du GAN
Les GAN ont été conceptualisés en premier par Ian Goodfellow et plusieurs de ses collègues en 2014. Ils cherchaient à développer un système informatique capable de produire des « photos » originales et réalistes à partir des données fournies. Face à la perspective décourageante des calculs mathématiques que cela impliquerait, Ian Goodfellow a eu une idée : pourquoi ne pas simplement demander à un réseau de créer les images, et à un autre de trouver les défauts dans ces images ? Les deux fonctionneraient en tandem, présentant de manière itérative de nouvelles versions et identifiant les erreurs jusqu’à ce que les fausses images réussissent l’inspection.
Le premier réseau antagoniste génératif est né de cette idée. Comme prévu, ce cadre innovant implique deux systèmes opposés, engagés dans un duel où le gain de l’un signifie la perte de l’autre. Au fil du temps, les deux réseaux améliorent leurs capacités, ce qui entraîne une génération de données de plus en plus sophistiquées.
Les réseaux antagonistes génératifs suscitent un intérêt considérable en raison de leur capacité unique à générer des données réalistes de haute qualité dans divers domaines : création d’images ou de vidéos de synthèse et d’illustrations générées par l’IA, aide à la personnalisation de produits, modélisation probabiliste, etc. En d’autres termes, ce qui avait commencé comme une expérience imaginaire est devenu une technologie qui a fait ses preuves et dont les applications pratiques sont importantes. Elle a transformé la façon dont les machines apprennent et créent, mais aussi la façon dont les entreprises peuvent en tirer profit.
L’utilisation de solutions de GAN pour les applications d’entreprise présente plusieurs avantages convaincants, notamment :
Les GAN excellent dans la génération de nouvelles données qui imitent les distributions de données réelles. Cette capacité est extrêmement utile pour l’augmentation des données, améliorant ainsi les modèles d’apprentissage machine sans données réelles supplémentaires. Cela permet également une détection efficace des anomalies et favorise la créativité dans la création de nouveaux modèles et concepts.
Réputés pour produire des résultats photoréalistes et haute fidélité, les GAN sont essentiels dans les domaines nécessitant une synthèse de vidéos et d’images détaillées. Qu’il s’agisse de générer des environnements réalistes dans des systèmes virtuels ou de créer de nouvelles séquences audio en musique, la qualité des sorties d’un GAN est souvent impossible à distinguer d’images ou d’enregistrements réels. Les données non multimédias sont également concernées : le processus du GAN peut affiner les informations synthétiques de tous types jusqu’à ce qu’elles correspondent à la qualité des ensembles de données réelles.
L’une des caractéristiques les plus remarquables des GAN est leur capacité à apprendre sans jeux de données étiquetés. Cela se révèle très utile dans les cas où les données étiquetées sont limitées ou coûteuses à obtenir. L’autonomie du GAN élimine l’un des principaux obstacles susceptibles d’empêcher certaines entreprises ou personnes de travailler correctement.
Les GAN ont la capacité unique d’imiter de manière autonome des distributions de données complexes, ce qui permet une production efficace de jeux de données très spécifiques. Cette fonctionnalité est particulièrement utile dans les cas d’utilisation nécessitant la génération rapide de gros volumes de données, car elle réduit considérablement le besoin de création manuelle de données.
En automatisant certaines parties des processus de génération et d’amélioration des données, les GAN peuvent réduire considérablement le temps de travail généralement associé à ces tâches. Cela permet non seulement de diminuer les coûts, mais également de rediriger le personnel vers des activités plus stratégiques. L’allocation des effectifs s’en trouve optimisée et la productivité améliorée.
Comme indiqué, les réseaux antagonistes génératifs se composent de deux modèles principaux de réseaux neuronaux entraînés simultanément par des processus antagonistes. Ces réseaux adverses sont appelés modèle générateur et modèle discriminateur.
La tâche principale du générateur est de créer des données qui ne peuvent pas être distinguées des données authentiques. Il prend un bruit aléatoire comme entrée et l’utilise pour générer des sorties de données via un réseau de couches conçues pour affiner progressivement les détails et la qualité des données. Le générateur s’améliore au fil du temps, guidé par le feedback du discriminateur sur l’authenticité de ses résultats. L’objectif final est de produire des données si convaincantes qu’elles peuvent tromper le discriminateur pour qu’il pense qu’elles sont authentiques.
Le discriminateur joue le rôle de juge dans la configuration du GAN. Il évalue les données pour déterminer si elles sont réelles (issues du jeu de données effectif) ou fausses (issues du générateur). L’objectif du discriminateur est de classifier avec précision les données d’entrée, en fournissant un feedback critique au générateur sur la qualité de ses sorties. Ce modèle permet d’affiner le générateur en le poussant à produire des résultats plus réalistes et de meilleure qualité.
Depuis leur apparition au cours des dix dernières années, les réseaux antagonistes génératifs ont évolué en plusieurs variantes distinctes, chacune adaptée à différentes utilisations et à différents enjeux. Bien que bon nombre de ces variations soient spécifiquement adaptées à la génération d’images, elles peuvent également être appliquées à d’autres utilisations.
Les principaux types de GAN sont les suivants :
Vanilla GAN
Il s’agit de la forme de GAN la plus basique, où le générateur et le discriminateur sont des réseaux neuronaux simples. Les « vanilla GAN » constituent l’architecture de base pour les modèles plus recherchés, mais peuvent ne pas suffire pour les tâches très complexes.GAN conditionnel (cGAN)
Ces GAN conditionnent à la fois le générateur et le discriminateur sur des informations supplémentaires, ce qui permet au modèle de générer des données propres à des étiquettes ou des libellés donnés. Cette approche permet une génération de données plus ciblées et pertinentes.GAN convolutif profond (DCGAN)
Les DCGAN intègrent des réseaux neuronaux convolutifs et sont particulièrement efficaces pour les tâches impliquant des images. Ils utilisent des couches de convolution et de convolution transposée dans le générateur et le discriminateur, améliorant ainsi la qualité de la génération d’images.GAN à pyramide laplacienne (LAPGAN)
Le LAPGAN utilise une série de GAN disposés en structure pyramidale pour générer des images de mieux en mieux définies. Chaque niveau de la pyramide affine les détails de l’image, ce qui permet de générer du contenu avec une meilleure résolution.GAN à super-résolution (SRGAN)
Axés sur la conversion d’images basse résolution en images haute résolution, les SRGAN appliquent l’apprentissage antagoniste pour apprendre un mappage de la basse résolution vers la haute résolution, ce qui permet d’obtenir des textures photoréalistes à partir d’images fortement sous-échantillonnées.
Le fonctionnement des GAN repose sur un processus dynamique de compétition entre les modèles générateur et discriminateur. Ce processus garantit que les résultats générés s’améliorent progressivement en qualité et en réalisme. Les étapes à suivre se décomposent ainsi :
Initialisation
Le générateur et le discriminateur sont initialisés avec des paramètres d’entraînement aléatoires, afin d’éliminer tout risque de biais envers un résultat spécifique. Ces « pondérations » sont affinées tout au long du processus.Le générateur présente des données synthétiques
Le générateur crée des données à partir d’un bruit aléatoire en entrée, en essayant d’imiter la distribution des données réelles.Le discriminateur évalue et répond
Ce modèle évalue à la fois les données réelles et les données synthétiques du générateur. Il tente de classer correctement les données réelles et les fausses.Des récompenses sont fournies au fur et à mesure de l’identification des données et du feedback
En matière d’entraînement de GAN, les récompenses font référence aux ajustements apportés aux paramètres du modèle en fonction des performances du discriminateur. Si le discriminateur identifie correctement des données réelles ou fausses, il est « récompensé » par une réduction des ajustements nécessaires dans ses paramètres. À l’inverse, en cas d’échec, des modifications plus importantes sont effectuées pour améliorer sa précision. Le générateur est également ajusté selon qu’il réussit ou non à tromper le discriminateur.Le processus d’apprentissage itératif se poursuit
Le processus est répété avec des échanges continus entre le générateur et le discriminateur, s’améliorant ainsi à chaque cycle jusqu’à ce que le discriminateur ne puisse plus distinguer avec certitude les données synthétiques des données réelles.
La mise en œuvre de GAN implique plusieurs processus clés, conçus pour garantir le bon fonctionnement du réseau. Chacun des processus suivants fait partie intégrante de l’architecture et du fonctionnement d’un GAN :
Importation des bibliothèques requises
La configuration de l’environnement de codage en important les bibliothèques logicielles nécessaires fournit les outils et les fonctions indispensables à l’apprentissage machine et au traitement des données.Définition d’une transformation
Les transformations sont utilisées pour prétraiter les données dans un format adapté au réseau neuronal, en veillant à ce que les données d’entrée soient normalisées ou augmentées pour améliorer l’entraînement.Chargement du jeu de données
Cela implique de préparer et de charger les données à partir desquelles le GAN apprendra. Il peut s’agir d’images, de textes ou de toute autre forme de données applicables au problème.Définition des paramètres à utiliser dans les processus ultérieurs
La définition de paramètres clés, tels que le taux d’apprentissage, le nombre d’époques et les tailles de lots, permet de dicter la façon dont le modèle s’entraîne.Définition d’une classe utilitaire pour créer le générateur
Cette classe englobe l’architecture du générateur et détaille les couches et leurs fonctions essentielles à la génération de nouvelles données.Définition d’une classe utilitaire pour créer le discriminateur
À l’instar du générateur, cette classe décrit la structure du discriminateur, qui juge l’authenticité des données générées.Création du GAN
Ce processus consiste à intégrer le générateur et le discriminateur dans un seul cadre de modèle, prêt pour l’entraînement.Entraînement du GAN
Le discriminateur et le générateur sont entraînés grâce à leur dynamique antagoniste, chacun s’améliorant en réponse aux performances de l’autre.
Même si les réseaux antagonistes génératifs sont des outils puissants en IA et ont contribué à établir les bases des solutions génératives modernes, ils ne sont pas exempts de défauts. Les GAN posent plusieurs difficultés qui peuvent avoir un impact sur leur efficacité et leur utilisation. Les obstacles potentiels suivants nécessitent une réflexion approfondie et des approches adaptées pour s’assurer que les GAN sont utilisés de manière efficace et responsable :
Les GAN sont sujets à l’instabilité pendant l’entraînement, et le générateur et le discriminateur peuvent ne pas apprendre efficacement. Pour corriger ce problème, les chercheurs modifient généralement les fonctions de perte et optimisent l’architecture afin de mieux répondre aux besoins du réseau.
Les GAN peuvent aider les entreprises à économiser de l’argent en matière de temps de travail et d’amélioration de la productivité. Cependant, les investissements informatiques importants qui sont requis pour leur entraînement, notamment sur des jeux de données volumineux et complexes, peuvent constituer un obstacle. L’utilisation de modèles de réseaux plus efficaces et d’accélérations matérielles pour gérer ces impératifs peut constituer une solution.
Comme de nombreux modèles d’apprentissage machine, les GAN peuvent surapprendre les données d’entraînement (notamment lorsque la diversité des données est faible), ce qui les rend moins efficaces sur les nouvelles données encore inconnues. Des techniques de régularisation, l’augmentation des données et l’amélioration de la diversité des ensembles de données peuvent contribuer à atténuer ce risque.
Il existe un risque que les GAN reproduisent ou amplifient les biais présents dans les données d’entraînement, ce qui conduit à des problèmes d’iniquité ou de discrimination. Pour lutter contre ce phénomène, les entreprises et les chercheurs doivent donner la priorité à la diversité des jeux de données d’entraînement tout en mettant en œuvre des algorithmes conçus pour identifier et corriger les biais potentiels.
Véritable « boîte noire », un GAN peut compliquer l’interprétation de ses processus de prise de décision, ce qui peut être particulièrement problématique dans certaines situations délicates. Il est essentiel de mettre au point des méthodes permettant de mieux suivre, comprendre et expliquer les comportements des GAN pour garantir la responsabilité et la confiance dans leurs applications.
En tant que technologie maîtresse de la GenAI moderne, les réseaux antagonistes génératifs ont démontré leur énorme potentiel dans un large éventail de secteurs et de domaines : augmentation des données, génération de données synthétiques ou applications plus complexes comme l’apprentissage non supervisé. Ces réseaux offrent des perspectives prometteuses aux entreprises qui cherchent à améliorer le réalisme et la diversité des données.
La Now Platform® de ServiceNow intègre des options d’IA avancées, idéales pour prendre en charge les GAN et d’autres initiatives guidées par l’IA. Elle offre des fonctionnalités telles que la compréhension du langage naturel, l’analyse prédictive et l’automatisation intelligente, qui permettent de rationaliser la prise de décision et l’efficacité opérationnelle afin que les entreprises puissent consacrer davantage de temps et de ressources à leur croissance. En outre, la capacité de la plateforme à gérer des tâches d’IA complexes en toute sécurité et à grande échelle permet aux entreprises de tirer pleinement parti du potentiel des technologies de GenAI, sans transiger sur les performances ou la sécurité.
Découvrez par vous-même comment ServiceNow et l’IA peuvent transformer votre activité : essayez ServiceNow dès aujourd’hui !