Las redes neuronales convolucionales destacan en el procesamiento de datos con formato cuadrícula (como las imágenes) mediante la detección de patrones locales. Sin embargo, estas redes neuronales son menos eficaces a la hora de capturar las relaciones globales dentro de los datos. Para superar esta dificultad, los transformadores usan la autoatención para determinar la importancia de las diferentes partes de los datos de entrada como partes del conjunto completo. Aunque las redes neuronales convolucionales se utilizan principalmente para tareas como el reconocimiento de imágenes, los transformadores se han adaptado para el procesamiento de texto e imágenes, lo que proporciona un conjunto de soluciones más versátil.
- Incrustaciones de entrada
- Codificación posicional
- Bloque transformador
- Bloques lineales y softmax
- La secuencia de entrada se transforma en representaciones numéricas denominadas incrustaciones que capturan el significado semántico de los tokens.
- La codificación posicional añade señales únicas a la incrustación de cada token para preservar el orden de esos tokens en la secuencia.
- El mecanismo de atención multicabezal procesa estas incrustaciones para captar diferentes relaciones entre los tokens.
- La normalización de las capas y las conexiones residuales estabilizan y aceleran el proceso de entrenamiento.
- La salida de la capa de autoatención atraviesa las redes neuronales prealimentadas para llevar a cabo transformaciones no lineales.
- Se emplean varios bloques transformadores, y cada uno refina la salida de la capa anterior.
- En tareas como la traducción, un módulo decodificador independiente genera la secuencia de salida.
- El modelo se entrena por medio de aprendizaje supervisado para reducir al mínimo las diferencias entre las predicciones y la verdad fundamental.
- Durante la inferencia, el modelo entrenado procesa nuevas secuencias de entrada para generar predicciones o representaciones.
- Procesamiento de lenguaje natural
- Traducción automática
- Reconocimiento de voz
- Generación de imágenes
- Análisis de secuencias de ADN
- Análisis de la estructura de las proteínas