¿Qué es el aprendizaje por refuerzo a partir de comentarios humanos (RLHF)?

El aprendizaje por refuerzo a partir de comentarios humanos (RLHF) es una técnica de aprendizaje automático en la que los modelos de IA aprenden comportamientos directamente a través de los comentarios de las personas, en lugar de utilizar funciones más tradicionales como las recompensas, lo que mejora eficazmente su rendimiento y alinea mejor la IA con los objetivos y las expectativas de las personas.

Demostración de la IA
Cosas que hay que saber sobre el RLHF
¿En qué se diferencian el RLHF y el RL tradicional? ¿Cómo funciona el entrenamiento en el RLHF? ¿Por qué es importante el RLHF? ¿Qué desafíos plantea el RLHF? ¿Cómo funciona el RLHF? ¿Cómo puede el RLHF mejorar la IA generativa? ServiceNow para el aprendizaje por refuerzo a partir de comentarios humanos

La mayoría de los modelos modernos de lenguaje de IA son sorprendentemente hábiles generando textos precisos, relevantes y similares a los de las personas. Sin embargo, pese a todas estas capacidades, los contenidos que crean no siempre son satisfactorios para los usuarios. Esto se debe, al menos en parte, a que no es tan fácil definir el concepto de "satisfactorio". Cada usuario puede tener sus propios objetivos en relación con los modelos de lenguaje de IA, y lo que puede resultar satisfactorio varía, como es lógico, en función de los estándares del usuario y del contexto de la situación.

Los métodos tradicionales de entrenamiento de la IA no tienen la capacidad para resolver cuestiones como esta, ya que suelen estar diseñados para predecir la siguiente palabra más probable en una secuencia basándose en las secuencias reales de palabras de sus conjuntos de datos. Se pueden utilizar métricas para comparar el contenido generado con textos de referencia específicos, pero siguen dejando que desear. Al final, solo el criterio humano puede determinar si el texto generado por la IA es "satisfactorio". Este es el razonamiento que hay detrás del aprendizaje por refuerzo a partir de comentarios humanos o RLHF, por sus siglas en inglés.

El RLHF se utiliza para perfeccionar los modelos de lenguaje de IA más allá de las estrategias tradicionales de entrenamiento. Consisten en entrenar al modelo basándose en preferencias o correcciones proporcionadas por personas. En lugar de limitarse a predecir las secuencias de palabras mediante la revisión de los datos, la IA puede utilizar el RLHF para ajustarse más a la idea de lo que es una respuesta satisfactoria o útil según los estándares humanos. El concepto de RLHF nació de la mano de OpenAI en 2019 como una evolución del aprendizaje por refuerzo (RL).

 

Expandir todo Contraer todo ¿En qué se diferencian el RLHF y el RL tradicional?

 El aprendizaje por refuerzo a partir de comentarios humanos (RLHF) y el aprendizaje por refuerzo (RL) tradicional son métodos de aprendizaje automático (ML) que se utilizan para entrenar sistemas de IA, pero difieren significativamente en la manera de dirigir el proceso de entrenamiento. El RL tradicional utiliza señales de recompensa del entorno, lo que significa que la IA recibe respuestas a sus acciones dentro de un conjunto predefinido de automatizaciones y aprende a maximizar estas recompensas a través de un proceso de prueba y error. Estas respuestas automatizadas ayudan a definir lo que es preciso o natural, pero no necesariamente si se ajusta a las complejas preferencias de los usuarios.

Por el contrario, el RLHF incorpora directamente comentarios de personas al ciclo de entrenamiento, lo que proporciona a la IA información real y contextualmente relevante sobre lo que las personas consideran resultados satisfactorios o de alta calidad. Con este método, la IA no solo aprende a realizar tareas, sino también a adaptar sus respuestas según el criterio humano, lo que la hace más eficaz en aplicaciones donde es esencial una comprensión similar a la de las personas.

Presentamos Now Intelligence Descubre cómo ServiceNow saca la IA y los análisis fuera del laboratorio para transformar la forma de trabajar de las empresas y acelerar la transformación digital. Descargar eBook
¿Cómo funciona el entrenamiento en el RLHF?

El RLHF es una estrategia única de entrenamiento de modelos lingüísticos de IA que implica varios pasos esenciales diseñados para que la IA esté más en consonancia con las expectativas y los valores de las personas. Algunos aspectos clave de estos pasos son los siguientes:

Preentrenamiento del modelo de lenguaje

La base del RLHF consiste en preentrenar un modelo de lenguaje a partir de un gran corpus de datos de texto. Esta fase permite al modelo aprender una gran variedad de patrones y contextos del lenguaje antes de pasar a entrenamientos más especializados.

El preentrenamiento dota a la IA de habilidades lingüísticas generales que le permiten interpretar y generar texto coherente. Este paso suele utilizar técnicas de aprendizaje no supervisadas, en las que el modelo aprende a predecir la siguiente palabra de una oración sin recibir información explícita sobre la calidad de sus resultados.

Entrenamiento de un modelo de recompensa

Una vez completado el preentrenamiento inicial, el siguiente paso consiste en recopilar datos diseñados específicamente para entrenar a un modelo de recompensa. Este modelo es fundamental para el RLHF, ya que traduce las valoraciones humanas de los resultados del texto del modelo en una señal numérica de recompensa.

El entrenamiento de un modelo de recompensa de RLHF comienza por la recopilación de comentarios de personas sobre los resultados generados por el modelo de lenguaje. Esta información puede incluir clasificaciones directas, valoraciones o la selección entre varias opciones disponibles. Los datos recopilados se utilizan para enseñar al modelo de recompensa a calcular cómo se ajusta el texto a las preferencias humanas. La eficacia del modelo de recompensa depende de la calidad y el volumen de comentarios humanos.

Aplicación del aprendizaje por refuerzo

La etapa final del proceso de RLHF consiste en utilizar técnicas de aprendizaje por refuerzo y el modelo de recompensa entrenado para perfeccionar el modelo de lenguaje preentrenado. En esta etapa se ajustan los parámetros del modelo de lenguaje para maximizar las recompensas que recibe del modelo de recompensas. De este modo, la generación de texto se optimiza de manera eficaz para producir resultados que estén más alineados con las preferencias humanas.

El uso del aprendizaje por refuerzo permite al modelo mejorar iterativamente a partir de los comentarios que recibe de forma continua, lo que mejora su capacidad para generar texto que sea conforme con estándares humanos específicos o alcanzar otros objetivos definidos. 

¿Por qué es importante el RLHF?

El aprendizaje por refuerzo a partir de comentarios humanos representa un avance significativo en el entrenamiento de la IA, ya que va más allá de los métodos tradicionales para incorporar directamente la opinión de las personas en el desarrollo del modelo. En otras palabras, puede hacer algo más que predecir qué palabras deberían (estadísticamente hablando) venir a continuación en una secuencia. Esta capacidad nos acerca cada vez más a la posibilidad de crear modelos de lenguaje de IA capaces de proporcionar respuestas verdaderamente inteligentes.

Ventajas del RLHF

Naturalmente, el RLHF tiene muchas ventajas más inmediatas, especialmente en la faceta empresarial. Esta estrategia de entrenamiento de la IA ofrece varios beneficios muy significativos, como, por ejemplo:

  • Reducción del tiempo de entrenamiento 
    El hecho de integrar directamente comentarios de las personas acelera el proceso de entrenamiento del RLHF y permite a los modelos alcanzar los resultados deseados más rápidamente. Al aplicarlo a chatbots internos y externos, por ejemplo, estos podrán comprender diversas consultas de los usuarios y responder a ellas con mayor rapidez.

  • Parámetros de entrenamiento más complejos 
    Al utilizar el criterio humano para dirigir el entrenamiento y definir parámetros en áreas que, de otra manera, se considerarían subjetivas, el RLHF puede resolver situaciones de entrenamiento sutiles y sofisticadas que escapan a las capacidades de los modelos tradicionales. Los sistemas de recomendación de contenido pueden beneficiarse de este aspecto del RLHF, ya que les permite adaptarse a las variaciones sutiles en las preferencias del usuario a lo largo del tiempo.

  • Mejora del rendimiento de la IA 
    Los modelos entrenados con RLHF suelen mostrar un mejor rendimiento, ya que se perfeccionan de forma continua e iterativa a través de comentarios con el fin de ajustarse mejor a los estándares humanos. La mejora del rendimiento que el RLHF aporta a las herramientas de traducción de idiomas permite obtener traducciones más naturales y relevantes a escala contextual.

  • Mitigación de riesgos 
    La incorporación de comentarios humanos garantiza que los sistemas de IA actúen de la forma esperada y prevista, lo que minimiza el riesgo de comportamientos dañinos o no deseados. Por ejemplo, el despliegue de vehículos autónomos se beneficia de una mayor supervisión humana en el entrenamiento de la IA.

  • Refuerzo de la seguridad 
    Gracias a los modelos de entrenamiento centrados en los comentarios humanos, los sistemas de IA pueden actuar de forma segura y predecible en situaciones reales. La mejora que el RLHF aporta a los sistemas de diagnóstico médico ayuda a los proveedores de servicios sanitarios potenciados por IA a evitar recomendaciones perjudiciales y a poner más de relevancia la seguridad del paciente.

  • Ayuda para preservar la ética 
    Gracias al RLHF, los modelos pueden reflejar consideraciones éticas y normas sociales, lo que garantiza que las decisiones que toma la IA tengan en cuenta los valores humanos. Esto permite detectar y eliminar los prejuicios de manera más rápida y, por tanto, evitar que se infiltren en las publicaciones en redes sociales o en el contenido de marca generado por otros medios.

  • Aumento de la satisfacción del cliente 
    Al alinear los resultados de la IA más estrechamente con las expectativas humanas, el RLHF mejora la experiencia general del usuario.

  • Garantía de adaptación y aprendizaje continuos 
    A lo largo del tiempo, los modelos de RLHF se adaptan a la nueva información y a los cambios en las preferencias humanas para seguir siendo relevantes y eficaces.

¿Qué desafíos plantea el RLHF?

Si bien el aprendizaje por refuerzo a partir de comentarios humanos tiene varios beneficios, también conlleva numerosos desafíos que pueden mermar su eficacia a nivel empresarial. Comprender los desafíos que se indican a continuación es crucial para las organizaciones que se planteen utilizar el RLHF para mejorar sus sistemas de IA:

La participación humana puede ser cara

La constante necesidad de intervención humana puede encarecer el RLHF, especialmente porque se necesita personal experto que sepa proporcionar comentarios precisos y útiles. Automatizar partes del proceso de comentarios con técnicas de aprendizaje automático puede proporcionar una solución parcial y reducir algo la dependencia de la intervención humana, lo que puede ayudar a bajar los costes.

Los comentarios humanos son muy subjetivos y pueden introducir errores o prejuicios

El criterio humano puede variar enormemente y, a menudo, está bajo el influjo de prejuicios personales, lo que puede afectar a la coherencia y la fiabilidad de los datos de entrenamiento. Para contrarrestar este riesgo, se recomienda utilizar un grupo diverso de personas que pueda proporcionar una perspectiva más equilibrada sobre el rendimiento de la IA.

Los seres humanos tienden a estar en desacuerdo

Las personas encargadas de realizar los comentarios no siempre estarán de acuerdo en qué constituye una respuesta "satisfactoria" o "útil", lo que puede dar lugar a evaluaciones incoherentes o contradictorias. Para garantizar la solidaridad, se pueden emplear mecanismos de resolución de conflictos y estrategias de creación de consenso entre los equipos de revisión para que los comentarios sean más homogéneos.

¿Cómo funciona el RLHF?

Incorporar comentarios humanos al entrenamiento de la IA puede parecer menos complicado que otros métodos de entrenamiento más autónomos. Sin embargo, la realidad es que el RLHF emplea modelos matemáticos complejos para optimizar el comportamiento de la IA en función de los matices de la información proporcionada por las personas. Esta estrategia sofisticada combina las valoraciones de las personas con el entrenamiento algorítmico para guiar a los sistemas de IA y volverlos más eficaces y capaces de responder a las preferencias humanas.

Los siguientes son algunos de los componentes esenciales que participan en este proceso: 

Espacio de estados

En el RLHF, el espacio de estados representa toda la información relevante disponible para la IA en un momento dado durante el proceso de toma de decisiones. Aquí se incluyen todas las variables que podrían influir en sus decisiones, tanto si ya se han proporcionado como si deben deducirse. El espacio de estados es dinámico y cambia a medida que la IA interactúa con su entorno y recopila nuevos datos.

Espacio de acción

El espacio de acción es extraordinariamente amplio, ya que abarca el conjunto completo de respuestas o generaciones de texto que el modelo de IA podría producir en respuesta a una instrucción. La enormidad del espacio de acción en los modelos lingüísticos hace que el RLHF sea particularmente complejo, pero también increíblemente potente para generar respuestas apropiadas para el contexto.

Función de recompensa

La función de recompensa del RLHF cuantifica el éxito de las acciones de la IA basándose en los comentarios de las personas. A diferencia del aprendizaje por refuerzo tradicional, en el que las recompensas están predefinidas y a menudo son simplistas, el RLHF utiliza comentarios humanos para generar una señal de recompensa más matizada. Los comentarios evalúan los resultados de la IA en función de la calidad, la relevancia o el ajuste a los valores humanos, lo que convierte a esta evaluación en una medida cuantitativa que favorece el aprendizaje.

Restricciones

Las restricciones se utilizan para alejar a la IA de los comportamientos no deseados. Pueden ser directrices éticas, consideraciones de seguridad o, simplemente, límites establecidos dentro de los cuales debe operar la IA. Por ejemplo, es posible aplicar penalizaciones a un modelo de lenguaje si genera contenido ofensivo o si la respuesta se desvía demasiado de un tema. Las restricciones ayudan a garantizar que los resultados de la IA permanezcan dentro de los límites de lo que los entrenadores humanos consideran aceptable o previsto.

Política

La política del RLHF dicta el proceso de toma de decisiones de la IA, estableciendo relaciones entre el estado actual y la siguiente acción. En esencia, estamos ante la pauta de comportamiento del modelo, que se optimiza continuamente basándose en los comentarios de recompensa. La política tiene el objetivo de maximizar la recompensa acumulada y, de esta manera, alinear las acciones de la IA más estrechamente con las expectativas y preferencias humanas.

¿Cómo puede el RLHF mejorar la IA generativa?

Además de abordar el entrenamiento en el área del lenguaje de la IA de una forma potente e innovadora, el RLHF también está teniendo un claro impacto en el campo relacionado de la IA generativa (GenAI), ya que abre la puerta a resultados más detallados y contextualmente apropiados en diversas aplicaciones generativas. Estos son algunos ejemplos de cómo se puede aplicar el RLHF a la IA generativa:

Ampliar los ámbitos de aplicación

La utilidad del RLHF va más allá de los modelos de lenguaje y se extiende a otras formas de IA generativa, como la generación de imágenes y música. En la generación de imágenes mediante IA, por ejemplo, el RLHF se puede utilizar para evaluar y mejorar el realismo o el impacto emocional de las obras de arte, algo crucial para el arte digital o la publicidad. Del mismo modo, en la generación de música el RLHF ayuda a crear temas que se adaptan mejor a actividades o tonos emocionales específicos, lo que aumenta la implicación de los usuarios en ámbitos como las aplicaciones de fitness o las terapias de salud mental. Gracias a esto, la IA generativa puede ir más allá de la aplicación más común, generar contenidos escritos.

Mejorar los asistentes de voz

En la tecnología de voz, el RLHF perfecciona la forma en que los asistentes de voz interactúan con los usuarios, ya que les hace parecer más amables, curiosos, fiables, etc. Al entrenar a los asistentes de voz para que respondan de formas cada vez más humanas, el RLHF aumenta la probabilidad de satisfacción del usuario y de compromiso a largo plazo.

Gestionar la subjetividad en la comunicación humana

Teniendo en cuenta que lo que se considera "útil" o "atractivo" puede variar enormemente de una persona a otra, el RLHF permite personalizar los comportamientos de la IA para satisfacer mejor la diversidad de expectativas de los usuarios y las normas culturales. Cada modelo se puede entrenar con comentarios de diferentes grupos de personas con el fin de obtener un abanico más amplio de respuestas que sean similares a las de las personas y tengan más probabilidades de satisfacer las preferencias específicas de los usuarios.

Precios de ServiceNow ServiceNow ofrece paquetes de productos competitivos que se adaptan a medida que tu empresa crece y tus necesidades cambian. Ver precios
ServiceNow para el aprendizaje por refuerzo a partir de comentarios humanos

Como estrategia de entrenamiento de la IA, el RLHF se centra en las personas, lo que lo convierte en un aliado indispensable para los modelos de lenguaje diseñados para interactuar directamente con los usuarios. ServiceNow, líder en automatización del flujo de trabajo, ha sacado provecho a este concepto.

La galardonada Now Platform® de ServiceNow cuenta con capacidades de IA avanzadas totalmente integradas que pueden respaldar las estrategias de RLHF de tu empresa. Con características diseñadas para mejorar la experiencia de los usuarios y optimizar las operaciones, Now Platform facilita la creación y el mantenimiento de flujos de trabajo inteligentes que se pueden adaptar en función de los comentarios y las interacciones de los usuarios.  

Disfruta de las completas herramientas, el control centralizado, la visibilidad inigualable y la asistencia eficaz que han convertido a ServiceNow en el socio de referencia entre los proveedores de soluciones de IA. Prueba hoy mismo la demostración de ServiceNow y empieza a optimizar tu estrategia de inteligencia artificial.

Profundiza en la IA generativa Acelera la productividad con Now Assist: IA generativa integrada en Now Platform. Explorar la IA Contactar
Medios Artículos ¿Qué es la IA? ¿Qué es la IA generativa? ¿Qué es un LLM? Informes de analistas IDC Infobrief: Maximiza el valor de la IA con una plataforma digital IA generativa en las operaciones de TI Implementación de la IA generativa en el sector de las telecomunicaciones Fichas técnicas Búsqueda IA Predice y evita interrupciones con Predictive AIOps de ServiceNow® eBooks Moderniza los servicios y las operaciones de TI con la IA IA generativa: ¿es tan grande como parece? Aumenta la productividad empresarial con la IA generativa White papers Índice de madurez de la IA empresarial IA generativa para telecomunicaciones