As redes neurais convolucionais se destacam no processamento de dados semelhantes a grade (como imagens), detectando padrões locais. No entanto, as CNNs são menos eficazes na captura de relacionamentos globais dentro dos dados. Os transformadores superam isso por meio do uso da autoatenção para ponderar a importância de diferentes partes dos dados inseridos como parte do todo maior. Embora as CNNs sejam usadas principalmente para tarefas como o reconhecimento de imagem, os transformadores foram adaptados para o processamento de texto e imagem, fornecendo um conjunto mais versátil de soluções.
- Representações vetoriais de entrada
- Codificação posicional
- Bloco do transformador
- Blocos lineares/softmax
- A sequência de entrada é transformada em representações numéricas chamadas de representações vetoriais, que capturam o significado semântico dos tokens.
- A codificação posicional adiciona sinais exclusivos à incorporação de cada token para preservar a ordem dos tokens na sequência.
- O mecanismo de atenção multicabeças processa essas representações vetoriais para capturar diferentes relacionamentos entre os tokens.
- A normalização da camada e as conexões residuais estabilizam e aceleram o processo de treinamento.
- A saída da camada de autoatenção passa por redes neurais feed-forward para fins de transformações não lineares.
- Vários blocos de transformador são empilhados, cada um deles refinando o resultado da camada anterior.
- Em tarefas como a tradução, um módulo decodificador separado gera a sequência do resultado.
- O modelo é treinado por meio de aprendizado supervisionado para minimizar a diferença entre as previsões e o rótulo verdadeiro.
- Durante a inferência, o modelo treinado processa novas sequências de entrada para gerar previsões ou representações.
- Processamento de linguagem natural
- Tradução de máquina
- Reconhecimento de fala
- Geração de imagens
- Análise de sequência de DNA
- Análise da estrutura das proteínas