Les réseaux neuronaux convolutifs excellent dans le traitement de données en forme de grille (comme les images) en détectant des motifs locaux. Cependant, les CNN sont moins efficaces pour capturer les relations globales au sein des données. Les transformeurs surmontent cet obstacle en utilisant l’autoattention pour évaluer l’importance des différentes parties des données d’entrée en tant que partie d’un tout plus grand. Alors que les CNN sont principalement utilisés pour des tâches telles que la reconnaissance d’images, les transformeurs ont été adaptés pour le traitement du texte et des images, offrant ainsi un ensemble de solutions plus polyvalent.
- Vecteurs d’intégration de l’entrée
- Encodage positionnel
- Bloc transformeur
- Blocs linéaires et fonction softmax
- La séquence d’entrée est convertie en représentations numériques appelées vecteurs d’intégration, qui capturent le sens sémantique des jetons.
- L’encodage de position ajoute des signaux uniques à l’intégration de chaque jeton afin de préserver l’ordre des jetons dans la séquence.
- Le mécanisme d’attention multitête traite ces vecteurs d’intégration pour capturer différentes relations entre les jetons.
- La normalisation des couches et les connexions résiduelles stabilisent et accélèrent le processus d’entraînement.
- La sortie de la couche d’autoattention est ensuite transmise à des réseaux neuronaux à propagation directe pour des transformations non linéaires.
- Plusieurs blocs de transformeurs sont empilés, chacun améliorant la sortie de la couche précédente.
- Pour les tâches comme la traduction automatique, un module de décodage distinct génère la séquence de sortie.
- Le modèle est entraîné à l’aide de l’apprentissage supervisé, afin de minimiser l’écart entre les prédictions et la vérité terrain.
- Lors de l’inférence, le modèle entraîné traite de nouvelles séquences d’entrée pour générer des prédictions ou des représentations.
- Traitement du langage naturel
- Traduction automatique
- Reconnaissance vocale
- Génération d’images
- Analyse de séquence d’ADN
- Analyse de la structure des protéines