Les réseaux neuronaux convolutifs excellent dans le traitement des données de type grille (comme les images) en détectant les schémas locaux. Cependant, les CNN sont moins efficaces pour saisir les relations globales au sein des données. Les transformeurs surmontent cet obstacle en faisant appel à l’auto-attention pour évaluer l’importance des différentes parties des données d’entrée dans un ensemble plus large. Bien que les CNN soient principalement utilisés pour des tâches telles que la reconnaissance d’image, les transformeurs ont été adaptés pour le traitement du texte et de l’image, offrant ainsi un ensemble de solutions plus polyvalent.
- Plongements d’entrée
- Encodage positionnel
- Bloc transformeurs
- Blocs linéaires/softmax
- La séquence d’entrée est transformée en représentations digitales appelées « plongements », qui capturent la signification sémantique des jetons.
- L’encodage positionnel ajoute des signaux uniques aux plongements de chaque jeton pour préserver leur ordre dans la séquence.
- Le mécanisme d’attention multi-tête traite ces plongements pour capturer différentes relations entre les jetons.
- La normalisation des couches et les connexions résiduelles stabilisent et accélèrent le processus d’entraînement.
- La sortie de la couche d’auto-attention passe par des réseaux neuronaux à propagation avant pour effectuer les transformations non linéaires.
- Plusieurs blocs transformeurs sont empilés, chacun affinant la sortie de la couche précédente.
- Pour certaines tâches comme la traduction, un module décodeur séparé génère la séquence de sortie.
- Le modèle est entraîné via un apprentissage supervisé pour minimiser la différence entre les prédictions et la réalité.
- Pendant l’inférence, le modèle entraîné traite de nouvelles séquences d’entrée pour générer des prédictions ou des représentations.
- Traitement du langage naturel
- Traduction automatique
- Reconnaissance vocale
- Génération d’images
- Analyse de séquences d’ADN
- Analyse de la structure des protéines