Le reti neurali convoluzionali eccellono nell'elaborazione di dati di tipo griglia (come le immagini) rilevando schemi locali. Tuttavia, le CNN sono meno efficaci nel catturare le relazioni globali all'interno dei dati. I trasformatori superano questo problema utilizzando l'auto-attenzione per soppesare l'importanza delle diverse parti dei dati di input come parte di un insieme più ampio. Mentre le CNN vengono utilizzate principalmente per attività come il riconoscimento delle immagini, i trasformatori sono stati adattati sia per l'elaborazione di testo che di immagini, offrendo un insieme di soluzioni più versatile.
- Embedding di input
- Codifica posizionale
- Blocco trasformatore
- Blocchi lineari/softmax
- La sequenza di input viene trasformata in rappresentazioni numeriche chiamate embedding, che catturano il significato semantico dei token.
- La codifica posizionale aggiunge segnali univoci all'embedding di ciascun token per preservare l'ordine dei token nella sequenza.
- Il meccanismo di attenzione multi-head elabora questi embedding per catturare diverse relazioni tra i token.
- La normalizzazione dei livelli e le connessioni residue stabilizzano e velocizzano il processo di addestramento.
- L'output del livello di auto-attenzione passa attraverso reti neurali feed-forward per trasformazioni non lineari.
- Vengono impilati più blocchi di trasformatori, ognuno dei quali perfeziona l'output del livello precedente.
- In compiti come la traduzione, un modulo decodificatore separato genera la sequenza di output.
- Il modello viene addestrato utilizzando l'apprendimento supervisionato per ridurre al minimo la differenza tra previsioni e dati di base.
- Durante l'inferenza, il modello addestrato elabora nuove sequenze di input per generare previsioni o rappresentazioni.
- Elaborazione del linguaggio naturale
- Traduzione automatica
- Riconoscimento vocale
- Generazione di immagini
- Analisi delle sequenze del DNA
- Analisi della struttura proteica