¿Qué son los modelos de transformadores?
Los modelos de transformadores son modelos de red neuronal que aprenden contexto y significado mediante el rastreo de las relaciones en los datos a través de un mecanismo llamado autoatención. Son capaces de identificar conexiones sutiles que les permiten tomar secuencias de entrada y usarlas para crear resultados relevantes. Los transformadores revolucionaron la IA al permitir un rendimiento innovador en el procesamiento del lenguaje natural, la visión informática y la IA generativa en modelos de lenguaje de gran tamaño, traducción y razonamiento complejo.
Demostración de IA
Lo que debes saber sobre los modelos de transformadores
¿Cuál es el origen de los modelos de transformadores? ¿Cuáles son los diferentes tipos de modelos de transformadores? ¿En qué se diferencian los transformadores de otras redes neuronales? ¿Por qué son importantes los transformadores? ¿Cuáles son los componentes clave de los transformadores? ¿Cómo funcionan los transformadores? ¿Cuáles son algunos casos de uso de los transformadores? Modelos de transformadores en la plataforma ServiceNow
En el ámbito de la inteligencia artificial, comprender y procesar con precisión el lenguaje humano siempre ha sido un desafío significativo. Los modelos tradicionales tenían problemas para capturar complejidades y matices, y a menudo eran insuficientes en tareas que requerían comprensión contextual. Esta necesidad, la demanda de modelos de lenguaje más sofisticados, creció a medida que aplicaciones como la traducción en tiempo real y los asistentes virtuales inteligentes se integraron más en la vida cotidiana. Pero en esencia, el problema se extendía más allá del lenguaje a otros aspectos de la IA: la dificultad de identificar y comprender las relaciones entre los puntos de datos en conjuntos complejos.
 
Se crearon modelos de transformadores para abordar este problema. Los modelos de transformadores aprovechan técnicas avanzadas para comprender el contexto y las conexiones dentro de los datos. Aplicando modelos matemáticos detallados, ayudan a un sistema de IA a organizar el caos de la entrada para que pueda comprender su significado previsto.
Ver todo Contraer todo ¿Cuál es el origen de los modelos de transformadores?
Los modelos de transformadores se originaron a partir de un innovador artículo de investigación de 2017 titulado “La atención es todo lo que necesitas”, que introdujo una nueva arquitectura de red neuronal que utilizó un mecanismo llamado autoatención para procesar y comprender el contexto dentro de las secuencias de datos. El concepto de atención, que es fundamental para los transformadores, fue introducido en 2014 por Dzmitry Bahdanau y otros. Bahdanau es científico de investigación en ServiceNow Research. El nombre “transformador” se eligió para reflejar la capacidad del modelo de transformar las representaciones de entrada en representaciones de salida más significativas.
 
El desarrollo del primer modelo de transformador marcó un salto significativo en las competencias de IA. El modelo se formó en menos de cuatro días, lo que representó una mejora significativa en comparación con los tiempos de formación más largos y más intensivos en cuanto al uso de recursos de los modelos anteriores. Junto con la capacidad del modelo para establecer nuevos registros de precisión en la traducción automática, esto destacó el potencial de los transformadores.
 
Los transformadores dieron paso a nuevos avances en el procesamiento de lenguaje natural (NLP) y sentaron las bases para futuros modelos de lenguaje de gran tamaño, como las nuevas soluciones de IA generativa (GenAI). La introducción de transformadores no solo ha mejorado la precisión y la eficiencia del procesamiento del lenguaje, sino que ha allanado el camino para la creación de aplicaciones de IA más versátiles, lo que consolida su papel como un elemento esencial de la IA moderna.
Presentación de Now Intelligence Descubre cómo ServiceNow saca la IA y los análisis de los laboratorios para transformar la forma en que las empresas trabajan y acelerar la transformación digital. Obtener eBook
¿Cuáles son los diferentes tipos de modelos de transformadores?
A medida que los modelos de transformadores continúan expandiéndose para satisfacer las necesidades de los investigadores de IA y los científicos informáticos, también están viendo una mayor especialización. Distintas categorías y tipos de transformadores están evolucionando para satisfacer necesidades específicas. Las siguientes son algunas de las arquitecturas que se encuentran en los transformadores modernos:
 
 

BERT

Los modelos de representaciones de codificadores bidireccionales a partir de transformadores (BERT) están diseñados para comprender el contexto de las palabras en función de las palabras que las rodean en una oración. BERT procesa el texto de forma bidireccional, al capturar matices y relaciones entre palabras de manera más eficaz que los modelos anteriores. Se utiliza comúnmente para tareas como responder preguntas y hacer inferencias de lenguaje.

 

GPT

Los transformadores generativos preentrenados (GPTS) son modelos autorregresivos que generan texto mediante la predicción de la siguiente palabra en una secuencia. Los modelos de GPT, incluida la popular línea ChatGPT, son conocidos por su capacidad para producir texto similar al de un ser humano y se utilizan en muchas aplicaciones, tanto profesionales como personales.

 

BART

Los transformadores bidireccionales y autorregresivos (BART) combinan la comprensión del contexto bidireccional de BERT con la generación de texto autorregresivo de GPT. Es eficaz en tareas de generación, resumen y traducción de texto, ya que proporciona competencias versátiles para procesar y crear resultados de texto coherentes.

 

Multimodales

Los transformadores multimodales integran datos de texto e imágenes, lo que hace posible que los sistemas de IA comprendan y generen contenido que abarca varios tipos de medios. Estos modelos son fundamentales para tareas que requieren la interpretación simultánea de texto y elementos visuales, como la respuesta visual a preguntas y el subtitulado de imágenes.

 

Vit

Los transformadores de visión (Vit) adaptan la arquitectura de transformadores para el procesamiento de imágenes al tratar las imágenes como secuencias de parches. Cada parche se procesa de manera similar a la forma en que se procesan las palabras en el texto, lo que permite que el modelo capture las relaciones contextuales dentro de la imagen. Los ViT se utilizan en la clasificación de imágenes, la detección de objetos y otras tareas de visión por computadora.
¿En qué se diferencian los transformadores de otras redes neuronales?
Los transformadores se consideran modelos de aprendizaje profundo, lo que significa que entran en la categoría de redes neuronales. Pero eso no significa que sean los mismos que otros ejemplos de esa tecnología. Específicamente, los modelos de transformadores difieren de las redes neuronales recurrentes (RN) y las redes neuronales convolucionales (CNN).
 

Transformadores frente a RN

Las redes neuronales recurrentes abordan los datos de forma secuencial, lo que significa que cada token se procesa uno tras otro, y pueden tener dificultades con las dependencias de largo alcance porque la información puede perderse en secuencias largas. Por otro lado, los transformadores utilizan mecanismos de autoatención que les permiten considerar todos los tokens de la secuencia de manera simultánea. Este procesamiento paralelo permite a los transformadores capturar dependencias de largo alcance de manera más eficaz y formar más rápido de lo que es posible con las RNN.

 

Transformers frente a CNN

Las redes neuronales convolucionales sobresalen en el procesamiento de datos similares a la cuadrícula (como imágenes) mediante la detección de patrones locales. Sin embargo, las CNN son menos eficaces para capturar las relaciones globales dentro de los datos. Los transformadores superan esto mediante el uso de la autoatención para sopesar la importancia de diferentes partes de los datos de entrada como parte del todo general. Si bien las CNN se utilizan principalmente para tareas como el reconocimiento de imágenes, los transformadores se han adaptado para el procesamiento tanto de texto como de imágenes, lo que proporciona un conjunto de soluciones más versátil.

 

¿Por qué son importantes los transformadores?
Como mencionamos anteriormente, los transformadores eran solo eso para el campo de la IA, una introducción transformadora que abordaba las limitaciones clave y abría la puerta a una innovación significativa. Las ventajas que esta tecnología hace posible son muchas y variadas, pero algunos de los beneficios más significativos incluyen los siguientes:
 
Escalado de modelos de IA
Los transformadores tienen una arquitectura modular, con capas y cabezas de atención que se pueden escalar con bastante facilidad. Esto permite la creación de modelos a gran escala que pueden manejar eficientemente extensas secuencias de datos. Al procesar secuencias largas en paralelo, los transformadores reducen significativamente los tiempos de formación y procesamiento. Esta eficiencia permite el desarrollo de modelos avanzados (como BERT y GPT) que pueden capturar representaciones de lenguaje complejas en miles de millones de parámetros.
 
Personalización eficiente del modelo
Las técnicas como el aprendizaje de transferencia y la generación aumentada por recuperación (RAG) facilitan una personalización más rápida y eficaz. Con formación previa en grandes conjuntos de datos, estos modelos se pueden ajustar con precisión en conjuntos de datos más pequeños y específicos, lo que permite aplicaciones personalizadas para diferentes sectores sin la necesidad de una inversión extensa; de hecho, democratiza el acceso a la IA avanzada.
 
Integración de competencias multimodales
Los transformadores apoyan el desarrollo de sistemas de IA multimodales que pueden interpretar y generar contenido a partir de diferentes tipos de datos, como la creación de imágenes a partir de descripciones textuales. Al combinar el procesamiento del lenguaje natural y la visión por computadora, los transformadores permiten una comprensión y creatividad más integrales y similares a las de los seres humanos.
 
Avance en la investigación y la innovación en IA
Los transformadores impulsan avances significativos en la investigación de IA y la innovación del sector, como la codificación posicional y los mecanismos de autoatención. La codificación posicional ayuda a los modelos a rastrear la posición de las palabras en una secuencia, mientras que la autoatención les permite sopesar la importancia de diferentes palabras en función de su relevancia para el contexto general. Estas innovaciones han llevado al desarrollo acelerado de nuevas arquitecturas y aplicaciones de IA.
¿Cuáles son los componentes clave de los transformadores?
Al igual que las entradas que reciben, los modelos de transformadores son complejos e intrincados, construidos en varias capas de software que operan en conjunto para crear salidas relevantes e inteligentes. Cada uno de los siguientes componentes es esencial para este proceso:

 

  • Incrustaciones de entrada
  • Las incrustaciones de entrada convierten las secuencias de entrada en vectores matemáticos que los modelos de IA pueden procesar. Los tokens (como las palabras) se transforman en vectores que llevan información semántica y sintáctica aprendida durante la formación.

  • Codificación posicional
  • La codificación posicional agrega señales únicas a la incrustación de cada token para indicar su posición en la secuencia. Esto garantiza que el modelo pueda preservar el orden de los tokens y comprender su contexto dentro de la secuencia.

  • Bloque de transformador
  • Cada bloque de transformador consta de un mecanismo de autoatención de varias cabezas y una red neuronal prealimentada. La autoatención pondera la importancia de los diferentes tokens, mientras que la red prealimentada procesa esta información.

  • Bloques lineales/softmax
  • El bloque lineal asigna representaciones internas complejas al dominio de entrada original. La función softmax convierte la salida en una distribución de probabilidad, lo que representa la confianza del modelo en cada predicción posible.

 

¿Cómo funcionan los transformadores?
Convertir secuencias de entrada complejas en resultados relevantes no es una tarea sencilla; se basa en varios pasos esenciales que incorporan los componentes clave identificados anteriormente. Estas capas de software intentan replicar la función del cerebro humano y operan juntas para dar al sistema la potencia de procesamiento que necesita para resolver problemas difíciles. Estas redes neuronales procesan cada parte de los datos en secuencia de manera simultánea. A medida que lo hacen, los datos pasan por los siguientes pasos:

 

  1. La secuencia de entrada se transforma en representaciones numéricas llamadas incrustaciones, que capturan el significado semántico de los tokens.

  2. La codificación posicional agrega señales únicas a la incrustación de cada token para preservar el orden de los tokens en la secuencia.

  3. El mecanismo de atención de varias cabezas procesa estas incrustaciones para capturar diferentes relaciones entre tokens.

  4. La normalización de capas y las conexiones residuales estabilizan y aceleran el proceso de formación.

  5. El resultado de la capa de autoatención pasa a través de redes neuronales prealimentadas para transformaciones no lineales.

  6. Se apilan varios bloques de transformador, y cada uno ajusta el resultado de la capa anterior.

  7. En tareas como la traducción, un módulo de decodificador separado genera la secuencia de salida.

  8. El modelo se forma mediante el aprendizaje supervisado para minimizar la diferencia entre las predicciones y la verdad básica.

  9. Durante la inferencia, el modelo formado procesa nuevas secuencias de entrada para generar predicciones o representaciones.
¿Cuáles son algunos casos de uso para los modelos de transformadores?
Los transformadores tienen aplicaciones casi ilimitadas en las empresas, lo que permite automatizar tareas complejas de procesamiento de datos, mejorar las interacciones con los clientes e impulsar la innovación en campos como la atención médica, las finanzas y los sectores creativos. Algunos de los usos más destacados de los modelos de transformadores incluyen los siguientes:

 

  • Procesamiento del lenguaje natural
  • Los transformadores permiten a las máquinas comprender, interpretar y generar lenguaje humano con mayor precisión. Esto admite aplicaciones como el resumen de documentos y los asistentes virtuales, que dependen de un lenguaje de comprensión preciso.

  • Traducción automática
  • También es posible realizar traducciones precisas en tiempo real entre idiomas. La capacidad de los transformadores para manejar dependencias de largo alcance y contexto mejora significativamente la precisión de las traducciones, en especial en comparación con soluciones anteriores de búsqueda y reemplazo.

  • Reconocimiento de voz
  • Las aplicaciones de voz a texto se pueden mejorar mediante la transcripción precisa del lenguaje hablado en texto escrito. Esto es particularmente útil para desarrollar aplicaciones controladas por voz y mejorar la accesibilidad para las personas con discapacidad auditiva.

  • Generación de imágenes
  • Los modelos de generación de imágenes utilizan transformadores para crear medios visuales a partir de descripciones textuales, fusionando el procesamiento del lenguaje natural y la visión por computadora. Esta competencia se utiliza en aplicaciones creativas, marketing y más.

  • Análisis de secuencias de ADN
  • Al tratar las secuencias de ADN de manera similar al texto, se puede formar a los transformadores para predecir mutaciones genéticas, comprender patrones genéticos e identificar regiones relacionadas con enfermedades.

  • Análisis de la estructura de proteínas
  • Los transformadores pueden modelar la naturaleza secuencial de los aminoácidos en las proteínas y predecir sus estructuras 3D. Esta comprensión es vital para el descubrimiento de medicamentos y la comprensión de los procesos biológicos.

Precios de ServiceNow ServiceNow ofrece paquetes de productos competitivos que escalan contigo a medida que tu empresa crece y tus necesidades cambian. Ver precios
Modelos de transformadores en la plataforma ServiceNow
Al habilitar el procesamiento avanzado del lenguaje natural, la traducción automática, el reconocimiento de voz y más, los transformadores han cambiado para siempre la forma en que las empresas utilizan la IA, lo que mejora las operaciones en todas los sectores y mercados. Dicho esto, no todos los enfoques de IA hacen el mejor uso posible de la tecnología de transformadores.
 
ServiceNow se erige como un socio esencial para aprovechar adecuadamente la IA para optimizar la empresa. Desarrollada sobre la base de Now Platform® mejorada por IA, la gama de aplicaciones de ServiceNow incorpora modelos de IA y transformadores para proporcionar un fácil acceso a la comprensión del lenguaje, el análisis predictivo, los flujos de trabajo automatizados y mucho más. Estas herramientas permiten a las organizaciones optimizar las operaciones como nunca antes, lo que mejora las interacciones con los clientes, obtiene conocimientos claros y convierte los datos complejos en una verdadera ventaja competitiva.
 
Descubre cómo los transformadores pueden transformar tu organización para mejor: ¡solicita una demostración de ServiceNow hoy mismo!

 

Explorar los flujos de trabajo de IA Descubre cómo la plataforma ServiceNow ofrece IA procesable en cada aspecto de tu empresa. Explorar la IA generativa Comunícate con nosotros
Recursos Artículos ¿Qué es la IA?  ¿Qué es GenAI? Informes de analista Resumen informativo de IDC: Maximiza el valor de la IA con una plataforma digital IA generativa en operaciones de TI Implementación de GenAI en la industria de las telecomunicaciones Ficha técnica Búsqueda basada en IA Predecir y evitar interrupciones con ServiceNow® Predictive AIOps Resource Management eBooks Moderniza los servicios y las operaciones de TI con IA GenAI: ¿es realmente la gran cosa? Libere la productividad empresarial con GenAI White papers Índice de madurez de la IA empresarial GenAI para telecomunicaciones