Convolutionele neurale netwerken blinken uit in het verwerken van rasterachtige gegevens (zoals afbeeldingen) door lokale patronen te detecteren. CNN's zijn echter minder effectief in het vastleggen van globale relaties binnen de gegevens. Transformatoren lossen dit op door zelfaandacht te gebruiken om het belang van verschillende delen van de invoergegevens als onderdeel van het grotere geheel af te wegen. CNN's worden voornamelijk gebruikt voor taken zoals beeldherkenning, maar transformatoren zijn aangepast voor zowel tekst- als beeldverwerking, waardoor ze een veelzijdiger pakket oplossingen bieden.
- Invoerinbeddingen
- Positionele codering
- Transformatorblok
- Lineaire/softmax-blokken
- De invoersequentie wordt omgezet in numerieke weergaven die inbeddingen worden genoemd en die de semantische betekenis van de tokens vastleggen.
- Positionele codering voegt unieke signalen aan de inbedding van elke token toe om de volgorde van tokens in de sequentie te behouden.
- Het aandachtsmechanisme met meerdere punten verwerkt deze inbeddingen om verschillende relaties tussen tokens vast te leggen.
- Normalisatie van lagen en restverbindingen stabiliseren en versnellen het trainingsproces.
- De uitvoer van de zelfaandachtlaag gaat door voorwaarts doorvoerende neurale netwerken voor niet-lineaire transformaties.
- Er worden meerdere transformatorblokken gestapeld, die elk de uitvoer van de vorige laag verfijnen.
- Bij taken zoals vertalingen wordt de uitvoersequentie gegenereerd door een aparte decodermodule.
- Het model wordt getraind via begeleid leren om het verschil tussen voorspellingen en fundamentele waarheid te minimaliseren.
- Tijdens de gevolgtrekking verwerkt het getrainde model nieuwe invoersequenties om voorspellingen of weergaven te genereren.
- Natuurlijke taalverwerking
- Machinevertaling
- Spraakherkenning
- Beeldgeneratie
- DNA-sequentieanalyse
- Analyse van eiwitstructuren