¿Qué son los modelos de transformador?
Los modelos de transformador son modelos de red neuronal que entienden el contexto y el significado haciendo un seguimiento de las relaciones en los datos por medio de un mecanismo llamado de autoatención. Son capaces de identificar conexiones sutiles, lo que les permite usar secuencias de entrada y para crear salidas relevantes. Los transformadores han revolucionado la IA al permitir un rendimiento sin precedentes en el procesamiento del lenguaje natural, la visión informática y la IA generativa en modelos lingüísticos de gran tamaño, traducción y razonamiento complejo.
Demostración de la IA
Cosas que hay que saber sobre los modelos de transformador
¿Cuál es el origen de los modelos de transformador? ¿Qué tipos de modelos de transformador hay? ¿En qué se diferencian los transformadores de otras redes neuronales? ¿Por qué son importantes los transformadores? ¿Cuáles son los componentes clave de los transformadores? ¿Cómo funcionan los transformadores? Casos de uso de los transformadores Modelos de transformador en la plataforma ServiceNow
En el ámbito de la inteligencia artificial, comprender y procesar el lenguaje humano de forma precisa siempre ha sido un gran reto. Los modelos tradicionales tenían dificultades para captar las complejidades y los matices, y a menudo eran insuficientes para las tareas que requerían comprender el contexto. Esta necesidad de modelos lingüísticos más sofisticados creció cuando las aplicaciones como la traducción en tiempo real y los asistentes virtuales inteligentes pasaron a formar parte de la vida diaria. Sin embargo, el problema de base no se limitaba al lenguaje, sino que afectaba también a otros aspectos de la IA, ya que resultaba difícil identificar y entender las relaciones entre los puntos de datos de los conjuntos complejos.
 
Los modelos de transformador se crearon para solucionar este problema. Estos modelos usan técnicas avanzadas para comprender el contexto y las conexiones de los datos. Ayudan a los sistemas de IA a poner orden en el caos de las entradas para que puedan comprender qué significan aplicando modelos matemáticos detallados.
Expandir todo Contraer todo ¿Cuál es el origen de los modelos de transformador?
Los modelos de transformador surgieron a partir de un innovador artículo de investigación de 2017 titulado "Attention is All You Need" ("Solo hay que poner atención"), que introdujo una nueva arquitectura de red neuronal que utilizaba un mecanismo denominado autoatención para procesar y comprender el contexto dentro de las secuencias de datos. El concepto de atención, que es fundamental para los transformadores, fue introducido en 2014 por Dzmitry Bahdanau et al. Bahdanau es investigador en Investigación de ServiceNow. El nombre "transformador" se debe a la intención de reflejar la capacidad del modelo para transformar las representaciones de entrada en representaciones de salida más significativas.
 
El desarrollo del primer modelo de transformador supuso un importante avance para las capacidades de la IA. El modelo se entrenó en menos de cuatro días, lo que supone una mejora significativa con respecto a los tiempos de entrenamiento más largos y con mayor uso de recursos de los modelos anteriores. Este aspecto, junto con su capacidad para marcar nuevos hitos en cuanto a la precisión de la traducción automática, puso de relieve el potencial de los transformadores.
 
Los transformadores dieron lugar a nuevos avances en el procesamiento del lenguaje natural (NLP) y sentó las bases para los futuros modelos lingüísticos de gran tamaño, como las nuevas soluciones de IA generativa. La llegada de los transformadores no solo ha mejorado la precisión y la eficiencia del procesamiento del lenguaje, sino que también ha allanado el camino para la creación de aplicaciones de IA más versátiles, lo que ha consolidado su papel como elemento esencial de la IA moderna.
Presentamos Now Intelligence Descubre cómo ServiceNow saca la IA y los análisis fuera del laboratorio para transformar la forma de trabajar de las empresas y acelerar la transformación digital. Descargar eBook
¿Qué tipos de modelos de transformador hay?
Como los modelos de transformador siguen creciendo para satisfacer las necesidades de los investigadores de IA y los científicos informáticos, también están experimentando una mayor especialización. Las distintas categorías y los diversos tipos de transformadores están evolucionando para cumplir fines concretos. Las siguientes son algunas de las arquitecturas de los transformadores modernos:
 
 

BERT

Los modelos de representación de codificador bidireccional de transformadores (BERT) están diseñados para comprender el contexto de las palabras según las que tienen a su alrededor en una frase. Los modelos BERT procesan el texto de forma bidireccional y capturan los matices y las relaciones entre las palabras de forma más eficaz que los modelos anteriores. Se utilizan normalmente para tareas como responder a preguntas y la inferencia lingüística.

 

GPT

Los transformadores generativos preentrenados (GPT) son modelos autorregresivos que generan texto prediciendo la siguiente palabra de una secuencia. Los modelos GPT, incluida la popular línea ChatGPT, son conocidos por su capacidad para producir texto que se asemeja al de los humanos y se utilizan en muchas aplicaciones tanto profesionales como personales.

 

BART

Los transformadores bidireccionales y autorregresivos (BART) combinan la comprensión bidireccional del contexto de BERT con la generación de texto autorregresivo de GPT. Es eficaz para generar, resumir y traducir texto, y ofrece una capacidad versátil para procesar y crear textos coherentes.

 

Multimodal

Los transformadores multimodales integran texto y datos de imagen, lo que permite a los sistemas de IA comprender y generar contenido de varios tipos de medios. Estos modelos son fundamentales para tareas que requieren interpretar texto y elementos visuales de forma simultánea, como la respuesta preguntas visuales y la descripción de imágenes.

 

ViT

Los transformadores de visión (ViT) adaptan la arquitectura de transformador para procesar imágenes tratándolas como secuencias de parches. Cada parche se procesa de forma similar a como se hace con las palabras de un texto, lo que permite que el modelo capture relaciones contextuales dentro de la imagen. Los ViT se utilizan en la clasificación de imágenes, la detección de objetos y otras tareas de visión informática.
¿En qué se diferencian los transformadores de otras redes neuronales?
Los transformadores se consideran modelos de aprendizaje profundo, por lo que se categorizan como redes neuronales. Sin embargo, eso no significa que sean iguales que otros ejemplos de esta tecnología. Los modelos de transformador son distintos de las redes neuronales recurrentes y las convolucionales.
 

Transformadores vs. redes neuronales recurrentes

Las redes neuronales recurrentes abordan los datos de forma secuencial, lo que significa que cada token se procesa uno tras otro, y pueden tener dificultades con las dependencias de largo alcance porque la información se puede perder en las secuencias largas. Por su parte, los transformadores utilizan mecanismos de autoatención que les permiten tener en cuenta todos los tokens de la secuencia simultáneamente. Con este procesamiento paralelo, los transformadores pueden capturar dependencias de largo alcance de forma más eficaz y entrenar más rápido que las redes neuronales recurrentes.

 

Transformadores vs. redes neuronales convolucionales

Las redes neuronales convolucionales destacan en el procesamiento de datos con formato cuadrícula (como las imágenes) mediante la detección de patrones locales. Sin embargo, estas redes neuronales son menos eficaces a la hora de capturar las relaciones globales dentro de los datos. Para superar esta dificultad, los transformadores usan la autoatención para determinar la importancia de las diferentes partes de los datos de entrada como partes del conjunto completo. Aunque las redes neuronales convolucionales se utilizan principalmente para tareas como el reconocimiento de imágenes, los transformadores se han adaptado para el procesamiento de texto e imágenes, lo que proporciona un conjunto de soluciones más versátil.

 

¿Por qué son importantes los transformadores?
Como hemos mencionado anteriormente, para el campo de la IA, los transformadores eran una solución innovadora que permitía superar limitaciones clave y abría la puerta a una evolución significativa. Las ventajas que ofrece esta tecnología son muchas y variadas, pero algunas de las más significativas son:
 
Escalar modelos de IA
Los transformadores tienen una arquitectura modular, con capas y cabezales de atención que se pueden escalar fácilmente. Esto permite la creación de modelos de gran tamaño capaces de abordar enormes secuencias de datos de manera eficiente. Al procesar largas secuencias en paralelo, los transformadores reducen significativamente los tiempos de entrenamiento y procesamiento. Esta eficiencia permite desarrollar modelos avanzados (como BERT y GPT) que pueden capturar representaciones lingüísticas complejas a lo largo de miles de millones de parámetros.
 
Personalización eficiente de los modelos
Las técnicas como el aprendizaje por transferencia y la generación aumentada por recuperación (RAG) permiten una personalización más rápida y eficaz. Estos modelos están entrenados previamente con grandes conjuntos de datos y pueden ajustarse con conjuntos más pequeños y específicos, lo que permite utilizarlos en aplicaciones personalizadas para distintas industrias sin necesidad de hacer una gran inversión y democratiza el acceso a la IA avanzada.
 
Integración de capacidades multimodales
Los transformadores sirven de base para desarrollar sistemas de IA multimodales capaces de interpretar y generar contenido a partir de diferentes tipos de datos, por ejemplo, al crear imágenes a partir de descripciones textuales. Al combinar el procesamiento del lenguaje natural y la visión informática, los transformadores hacen posible una comprensión y una creatividad más completas y similares a las capacidades humanas.
 
Avance en las investigaciones y las innovaciones de la IA
Los transformadores propician avances significativos en la investigación de la IA y en la innovación del sector, como la codificación posicional y los mecanismos de autoatención. La codificación posicional ayuda a los modelos a hacer un seguimiento de la posición de las palabras en una secuencia, y la autoatención les permite determinar la importancia de las diferentes palabras en función de su relevancia para el contexto general. Estas innovaciones han llevado acelerar el desarrollo de nuevas arquitecturas y aplicaciones de IA.
¿Cuáles son los componentes clave de los transformadores?
Al igual que las entradas que reciben, los modelos de transformador son complejos e intrincados, y se construyen sobre varias capas de software que funcionan de forma coordinada para crear salidas pertinentes e inteligentes. Todos estos componentes son esenciales para el proceso:

 

  • Incrustaciones de entrada
  • Las incrustaciones de entrada convierten las secuencias de entrada en vectores matemáticos que los modelos de IA son capaces de procesar. Los tokens (por ejemplo, las palabras) se transforman en vectores que transportan información semántica y sintáctica aprendida durante el entrenamiento.

  • Codificación posicional
  • La codificación posicional añade señales únicas a la incrustación de cada token para indicar su posición en la secuencia. Esto garantiza que el modelo pueda conservar el orden de los tokens y comprender su contexto dentro de la secuencia.

  • Bloque transformador
  • Todos los bloques transformadores constan de un mecanismo de autoatención con varios cabezales y una red neural prealimentada. La autoatención determina la importancia de los distintos tokens, y la red prealimentada procesa esa información.

  • Bloques lineales y softmax
  • El bloque lineal asigna representaciones internas complejas al dominio de entrada original. A continuación, la función softmax convierte la salida en una distribución de probabilidad, y representa la confianza del modelo en cada una de las posibles predicciones.

 

¿Cómo funcionan los transformadores?
Convertir secuencias de entrada complejas en salidas útiles no es una tarea sencilla y conlleva varios pasos esenciales que incorporan los componentes clave descritos anteriormente. Estas capas de software intentan replicar la función del cerebro humano y operan de forma conjunta para dar al sistema la potencia de procesamiento que necesita para resolver problemas difíciles. Estas redes neuronales procesan todas las partes de los datos de la secuencia de forma simultánea. En este proceso, se completan los siguientes pasos con los datos:

 

  1. La secuencia de entrada se transforma en representaciones numéricas denominadas incrustaciones que capturan el significado semántico de los tokens.

  2. La codificación posicional añade señales únicas a la incrustación de cada token para preservar el orden de esos tokens en la secuencia.

  3. El mecanismo de atención multicabezal procesa estas incrustaciones para captar diferentes relaciones entre los tokens.

  4. La normalización de las capas y las conexiones residuales estabilizan y aceleran el proceso de entrenamiento.

  5. La salida de la capa de autoatención atraviesa las redes neuronales prealimentadas para llevar a cabo transformaciones no lineales.

  6. Se emplean varios bloques transformadores, y cada uno refina la salida de la capa anterior.

  7. En tareas como la traducción, un módulo decodificador independiente genera la secuencia de salida.

  8. El modelo se entrena por medio de aprendizaje supervisado para reducir al mínimo las diferencias entre las predicciones y la verdad fundamental.

  9. Durante la inferencia, el modelo entrenado procesa nuevas secuencias de entrada para generar predicciones o representaciones.
Casos de uso de los modelos de transformador
Los transformadores tienen un número casi ilimitado de aplicaciones empresariales, ya que permiten automatizar tareas complejas de procesamiento de datos, mejorar las interacciones con los clientes y promover la innovación en campos como la atención sanitaria, las finanzas y los sectores creativos. Algunos de los usos más destacados de los modelos de transformador son:

 

  • Procesamiento de lenguaje natural
  • Los transformadores permiten a las máquinas comprender, interpretar y generar lenguaje humano con mayor precisión. Esto hace posibles aplicaciones como el resumen de documentos y los asistentes virtuales, que requieren un lenguaje preciso.

  • Traducción automática
  • Estos modelos también hacen posibles las traducciones precisas y en tiempo real entre distintos idiomas. La capacidad de los transformadores para gestionar contextos y dependencias de largo alcance mejora significativamente la precisión de las traducciones, especialmente en comparación con las soluciones de búsqueda y sustitución anteriores.

  • Reconocimiento de voz
  • Las aplicaciones de voz a texto se pueden mejorar gracias a las transcripciones del lenguaje oral. Esto resulta especialmente útil para desarrollar aplicaciones controladas por voz y mejorar la accesibilidad para las personas con limitaciones auditivas.

  • Generación de imágenes
  • Los modelos de generación de imágenes utilizan transformadores para crear medios visuales a partir de descripciones textuales, un proceso en el que fusionan el procesamiento del lenguaje natural y la visión informática. Esta capacidad se utiliza en aplicaciones creativas, marketing y mucho más.

  • Análisis de secuencias de ADN
  • Al tratar las secuencias de ADN de manera similar al texto, los transformadores pueden entrenarse para predecir mutaciones genéticas, comprender patrones genéticos e identificar regiones relacionadas con enfermedades.

  • Análisis de la estructura de las proteínas
  • Los transformadores pueden modelar la naturaleza secuencial de los aminoácidos de las proteínas y predecir sus estructuras en 3D. Esta comprensión es vital para descubrir fármacos y comprender los procesos biológicos.

Precios de ServiceNow ServiceNow ofrece paquetes de productos competitivos que se adaptan a medida que tu empresa crece y tus necesidades cambian. Ver precios
Modelos de transformador en la plataforma ServiceNow
Gracias a haber hecho posible el procesamiento avanzado del lenguaje natural, la traducción automática, el reconocimiento de voz y mucho más, los transformadores han cambiado para siempre la forma en que las empresas utilizan la IA y han mejorado las operaciones en todos los sectores y mercados. Dicho esto, no todos los enfoques de IA hacen el mejor uso posible de la tecnología de los transformadores.
 
ServiceNow es un socio esencial para sacar el máximo partido de la IA a la hora de optimizar una empresa. Las aplicaciones de ServiceNow se basan en Now Platform®, una plataforma mejorada con IA, e incorporan modelos de IA y de transformador para proporcionar un acceso sencillo a la comprensión lingüística, el análisis predictivo, los flujos de trabajo automatizados y mucho más. Estas herramientas permiten a las organizaciones optimizar las operaciones como nunca para mejorar sus interacciones con los clientes, obtener información clara y lograr una auténtica ventaja competitiva a partir de sus datos complejos.
 
Prueba hoy mismo la demostración de ServiceNow y descubre cómo pueden ayudarte los transformadores a impulsar tu organización.

 

Explora los flujos de trabajo de IA Descubre cómo la plataforma de ServiceNow lleva la IA práctica a cada aspecto de tu empresa. Explorar la GenAI Contactar
Recursos Artículos ¿Qué es la IA?  ¿Qué es la IA generativa? Informes de analistas IDC InfoBrief: Maximiza el valor de la IA con una plataforma digital IA generativa en las operaciones de TI Implementación de la IA generativa en el sector de las telecomunicaciones Fichas técnicas Búsqueda IA Predice y evita interrupciones con AIOps predictivos de ServiceNow® Gestión de recursos eBooks Moderniza los servicios y las operaciones de TI con la IA IA generativa: ¿es tan grande como parece? Aumenta la productividad empresarial con la IA generativa White papers Índice de madurez de la IA empresarial IA generativa para telecomunicaciones