¿Qué es el aprendizaje reforzado a partir de comentarios de humanos (RLHF)?

El aprendizaje reforzado a partir de comentarios humanos (RLHF) es una técnica de aprendizaje automático en la que los modelos de IA aprenden comportamientos a través de comentarios humanos directos en lugar de funciones de recompensa más tradicionales, lo que mejora eficazmente su rendimiento y alinea mejor la IA con los objetivos y expectativas humanos.

Demostración de IA
Cosas que debes saber sobre el RLHF
¿Qué es el RLHF en comparación con el aprendizaje reforzado tradicional? ¿Cuál es el proceso de entrenamiento del RLHF? ¿Por qué es importante el RLHF? ¿Cuáles son algunos de los desafíos del RLHF? ¿Cómo funciona el RLHF? ¿Cómo puede hacer el RLHF para mejorar la IA generativa? ServiceNow para el aprendizaje reforzado a partir de comentarios de humanos

La mayoría de los modelos de lenguaje de IA modernos son sorprendentemente hábiles a la hora de generar textos precisos, relevantes y similares a los humanos. Desafortunadamente, incluso con todas estas competencias, no siempre crean contenido que un usuario podría considerar “bueno”. Esto se debe, al menos en parte, a que “bueno” es un concepto difícil de definir: cada persona quiere cosas diferentes de los modelos de lenguaje de IA, y lo que constituye una buena respuesta varía naturalmente con los estándares del usuario y el contexto de la situación.

Los métodos tradicionales de entrenamiento de IA hacen poco para resolver estos problemas. En cambio, suelen estar diseñados para predecir la siguiente palabra más probable en una secuencia basándose en las secuencias reales de palabras presentadas en sus conjuntos de datos. Pueden emplearse métricas para comparar el contenido generado con textos de referencia específicos, pero siguen siendo insuficientes. Al final, solo el juicio humano puede determinar si el texto generado por la IA es “bueno”. Este es el razonamiento en el que se basa el aprendizaje reforzado a partir de comentarios de humanos, o RLHF.

El RLHF es un método utilizado para refinar los modelos de lenguaje de IA más allá de los enfoques de entrenamiento tradicionales. Consiste en entrenar el modelo basándose en las preferencias o correcciones proporcionadas por seres humanos vivos. En lugar de simplemente predecir las secuencias de palabras mediante la revisión de datos, la IA puede aplicar RLHF para alinearse más estrechamente con las ideas humanas de lo que constituye una respuesta buena o útil de acuerdo con los estándares humanos. El RLHF como concepto se sugirió por primera vez en OpenAI en 2019 y es una evolución del aprendizaje reforzado (RL).

 

Expandir todo Contraer todo ¿Qué es el RLHF en comparación con el aprendizaje reforzado tradicional?

 El aprendizaje reforzado a partir de comentarios de humanos y el aprendizaje reforzado tradicional son métodos de aprendizaje automático (ML) para entrenar sistemas de IA, pero difieren significativamente en la forma en que guían el proceso de aprendizaje. El RL tradicional se basa en señales de recompensa procedentes del entorno, lo que significa que la IA recibe comentarios de sus acciones dentro de un conjunto predefinido de automatizaciones y aprende a maximizar estas recompensas a través de pruebas y errores. Estos comentarios automatizados ayudan a definir lo que es preciso o natural, pero no se ajustan necesariamente con las complejas preferencias humanas.

Por el contrario, el RLHF incorpora comentarios humanos directos en el ciclo de aprendizaje, lo que proporciona a la IA conocimientos reales y contextualmente relevantes sobre lo que los humanos consideran resultados deseables o de alta calidad. Este método permite que la IA aprenda no solo a realizar tareas, sino también a adaptar sus respuestas de acuerdo con las opiniones humanas, lo que la hace más eficaz para aplicaciones en las que es esencial una comprensión similar a la humana.

Presentación de Now Intelligence Descubre cómo ServiceNow saca la IA y los análisis de los laboratorios para transformar la forma en que las empresas trabajan y acelerar la transformación digital. Obtener eBook
¿Cuál es el proceso de entrenamiento del RLHF?

El RLHF es un enfoque único de formación de modelos de lenguaje de IA que incluye varios pasos críticos diseñados para que la IA se acerque más a las expectativas y los valores humanos. Los aspectos clave de estos pasos incluyen lo siguiente:

Preentrenamiento del modelo de lenguaje

La base del RLHF es el preentrenamiento de un modelo de lenguaje en un gran corpus de datos de texto. Esta fase permite que el modelo aprenda una amplia gama de patrones y contextos del lenguaje antes de que se produzca el entrenamiento más especializado.

El preentrenamiento dota a la IA de habilidades lingüísticas generales que le permiten comprender y generar textos coherentes. En este paso, se suelen utilizar técnicas de aprendizaje no supervisado, en las que el modelo aprende a predecir la palabra que sigue en las oraciones sin ningún comentario explícito sobre la calidad de sus resultados.

Entrenamiento de un modelo de recompensa

Una vez completado el preentrenamiento inicial, el siguiente paso consiste en recopilar datos específicamente diseñados para entrenar un modelo de recompensa. Este modelo es fundamental para el RLHF, ya que traduce las evaluaciones humanas de las salidas de texto del modelo en una señal de recompensa numérica.

El entrenamiento de un modelo de recompensa RLHF comienza con la recopilación de comentarios humanos sobre los resultados generados por el modelo de lenguaje. Estos comentarios pueden incluir clasificaciones, valoraciones o elecciones directas entre las opciones disponibles. Luego, los datos recopilados se utilizan para enseñar al modelo de recompensa y estimar hasta qué punto el texto se ajusta a las preferencias humanas. La eficacia del modelo de recompensa depende de la calidad y el volumen de los comentarios humanos.

Aplicación del aprendizaje reforzado

La etapa final del proceso de RLHF implica ajustar el modelo de lenguaje preentrenado con el modelo de recompensa entrenado mediante técnicas de aprendizaje reforzado. Esta etapa ajusta los parámetros del modelo de lenguaje con el objetivo de maximizar las recompensas que recibe del modelo de recompensa a fin de optimizar la generación de texto para producir resultados que estén más alineados con las preferencias humanas.

El uso del aprendizaje reforzado permite que el modelo mejore iterativamente en función de los comentarios continuos, lo que mejora su capacidad para generar texto que cumpla con estándares humanos específicos o lograr otros objetivos específicos. 

¿Por qué es importante el RLHF?

El aprendizaje reforzado a partir de comentarios de humanos representa un avance significativo en el entrenamiento de IA, ya que va más allá de los métodos tradicionales para incorporar conocimientos humanos directos en el desarrollo de modelos. En pocas palabras, puede hacer más que solo predecir qué palabras deberían ser las siguientes en una secuencia (estadísticamente hablando). Esto acerca el mundo a la creación de modelos de lenguaje de IA capaces de proporcionar respuestas verdaderamente inteligentes.

Ventajas del RLHF

Claramente, el RLHF tiene muchas ventajas más inmediatas, especialmente para las empresas. Este enfoque de entrenamiento de la IA permite varios beneficios notables, como los siguientes:

  • Reducción del tiempo de entrenamiento 
    La integración de comentarios directos permite que el RLHF acelere el proceso de aprendizaje para que los modelos alcancen los resultados deseados más rápidamente. Esto se puede aplicar a los bots de chat internos y externos de manera que comprendan y respondan a diversas consultas de los usuarios con más rapidez.

  • Habilitación de parámetros de entrenamiento más complejos 
    El RLHF puede manejar escenarios de entrenamiento sutiles y sofisticados que los modelos tradicionales no pueden, con el juicio humano para guiar el aprendizaje y establecer parámetros en áreas que de otro modo serían consideradas subjetivas. Los sistemas de recomendación de contenido pueden beneficiarse de este aspecto del RLHF y ajustarse a variaciones sutiles en las preferencias de usuario a lo largo del tiempo.

  • Mejora del rendimiento de la IA 
    Los modelos entrenados con RLHF suelen mostrar un mejor rendimiento, ya que se perfeccionan continuamente a través de comentarios iterativos para cumplir mejor con los estándares humanos. Mejorar el rendimiento de las herramientas de traducción de idiomas con RLHF produce traducciones más naturales y contextualmente relevantes.

  • Mitigación de riesgos 
    La incorporación de los comentarios humanos garantiza que los sistemas de IA actúen de la forma esperada y prevista, lo que minimiza el riesgo de comportamientos perjudiciales o no deseados. Por ejemplo, una mayor supervisión humana en el entrenamiento de la IA es beneficiosa para el despliegue de vehículos autónomos.

  • Mejora de la seguridad 
    Los modelos de entrenamiento centrados en los comentarios humanos garantizan que los sistemas de IA actúen de forma segura y predecible en situaciones reales. La mejora de los sistemas de diagnóstico médico con RLHF ayuda a los proveedores de atención médica mejorados con IA a evitar recomendaciones perjudiciales y a priorizar mejor la seguridad del paciente.

  • Ayuda para defender la ética 
    El RLHF permite que los modelos reflejen consideraciones éticas y normas sociales, lo que garantiza que las decisiones de IA se tomen en consideración de los valores humanos. Los sesgos pueden identificarse y eliminarse de forma más inmediata, y, así, se puede evitar que se filtren en las publicaciones sociales generadas o en otros contenidos de marca.

  • Aumento de la satisfacción del usuario 
    El RLHF mejora la experiencia general de usuario, ya que alinea mejor los resultados de la IA con las expectativas humanas.

  • Garantía de aprendizaje y adaptación continuos 
    Los modelos de RLHF se adaptan con el tiempo a la nueva información y a las cambiantes preferencias humanas, por lo que mantienen su relevancia y eficacia.

¿Cuáles son algunos de los desafíos del RLHF?

Aunque el aprendizaje reforzado a partir de comentarios de humanos ofrece numerosas ventajas, también conlleva varios desafíos que pueden impedir su eficacia en la empresa. Comprender estos desafíos es crucial en las organizaciones que consideran el RLHF como una opción para mejorar sus sistemas de IA:

La participación humana puede ser costosa

La necesidad de un aporte humano continuo puede hacer que el RLHF sea una perspectiva costosa, especialmente porque se necesitan anotadores expertos para proporcionar comentarios precisos y útiles. La automatización de partes del proceso mediante técnicas de aprendizaje automático puede ser una solución parcial que reduzca la dependencia de la intervención humana y, por tanto, los costos.

Los comentarios humanos son altamente subjetivos y pueden introducir errores o sesgos

Los juicios humanos pueden variar ampliamente y, a menudo, se ven influidos por prejuicios individuales. Esto puede afectar a la coherencia y fiabilidad de los datos de entrenamiento. Para contrarrestar este riesgo, se recomienda utilizar un grupo diverso de anotadores humanos capaces de ofrecer una perspectiva más equilibrada sobre el rendimiento de la IA.

Los seres humanos tienden a estar en desacuerdo entre sí

Los anotadores humanos no siempre estarán de acuerdo en lo que constituye una respuesta “buena” o “útil”, lo que puede dar lugar a evaluaciones incoherentes o contradictorias. Para garantizar la solidaridad, se pueden emplear mecanismos de resolución de conflictos y estrategias de creación de consenso entre los equipos de revisión que fomenten comentarios más armonizados.

¿Cómo funciona el RLHF?

Incorporar los comentarios humanos en el entrenamiento de IA puede parecer un enfoque menos complicado que los métodos de entrenamiento más autónomos. La realidad es que el RLHF emplea modelos matemáticos complejos para optimizar el comportamiento de la IA en función de aportes humanos matizados. Este sofisticado enfoque combina la evaluación humana con el entrenamiento algorítmico para guiar los sistemas de IA y hacerlos más eficaces y receptivos a las preferencias humanas.

Los componentes esenciales de este proceso son los siguientes: 

Espacio de estados

El espacio de estados en el RLHF representa toda la información relevante de que dispone la IA en cualquier momento dado durante su proceso de toma de decisiones. Esto incluye todas las variables que pueden influir en sus decisiones, tanto si ya las tiene como si debe deducirlas. El espacio de estados es dinámico y cambia a medida que la IA interactúa con el entorno y recopila nuevos datos.

Espacio de acción

El espacio de acción es extraordinariamente amplio, ya que abarca el conjunto completo de respuestas o generaciones de texto que el modelo de IA puede producir en respuesta a una indicación. La enormidad del espacio de acción en los modelos de lenguaje hace que el RLHF sea particularmente desafiante, pero también increíblemente poderoso para generar respuestas contextualmente apropiadas.

Función de recompensa

La función de recompensa en el RLHF cuantifica el éxito de las acciones de la IA en función de los comentarios humanos. A diferencia del aprendizaje reforzado tradicional, en el que las recompensas están predefinidas y suelen ser simplistas, el RLHF utiliza los comentarios humanos para crear una señal de recompensa más matizada. Los comentarios se utilizan para evaluar los resultados de la IA en función de la calidad, la relevancia o la adhesión a los valores humanos, lo que convierte esta evaluación en una medida cuantitativa que impulsa el aprendizaje.

Restricciones

Las restricciones se utilizan para evitar que la IA se comporte de forma no deseada. Estas podrían ser pautas éticas, consideraciones de seguridad o simplemente límites establecidos dentro de los cuales la IA debe operar. Por ejemplo, un modelo de lenguaje podría ser penalizado por generar contenido ofensivo o desviarse demasiado de un tema. Las restricciones ayudan a garantizar que los resultados de la IA se mantengan dentro de los límites de lo que se considera aceptable o pretendido por los entrenadores humanos.

Política

La política de RLHF dicta el proceso de toma de decisiones de la IA y realiza un mapeo desde el estado actual hasta la siguiente acción. En esencia, se trata de la pauta de comportamiento del modelo, que se optimiza continuamente en función de los comentarios de recompensa. El objetivo de la política es maximizar la recompensa acumulativa para alinear así las acciones de la IA con las expectativas y preferencias humanas.

¿Cómo puede hacer el RLHF para mejorar la IA generativa?

Como enfoque sólido e innovador de entrenamiento de idiomas de la IA, el RLHF también tiene un claro impacto en el campo relacionado de la IA generativa (GenAI). Esto permite obtener resultados más detallados y contextualmente apropiados en varias aplicaciones generativas. Entre los ejemplos de aplicación del RLHF a GenAI se incluyen los siguientes:

Ampliación de las áreas de aplicación

El RLHF extiende su utilidad más allá de los modelos de lenguaje a otras formas de IA generativa, como la generación de imágenes y música. Por ejemplo, en la generación de imágenes de IA, el RLHF se puede utilizar para evaluar y mejorar el realismo o el impacto emocional de obras de arte, algo crucial para aplicaciones en arte digital o publicidad. Del mismo modo, el RLHF en la generación de música ayuda a crear pistas que resuenan mejor con tonos emocionales o actividades específicas, lo que aumenta la interacción del usuario en áreas como aplicaciones de entrenamiento físico o terapia de salud mental. Esto puede llevar a la GenAI más allá de la aplicación más común de generar contenido escrito.

Mejora de los asistentes de voz

En la tecnología de voz, el RLHF refina la forma en que los asistentes de voz interactúan con los usuarios para hacerlos sonar más amables, curiosos, dignos de confianza, etc. El entrenamiento de los asistentes de voz para que respondan de maneras cada vez más humanas permite que el RLHF aumente la probabilidad de satisfacción del usuario y la interacción a largo plazo.

Manejo de la subjetividad en la comunicación humana

Si se tiene en cuenta que lo que se considera “útil” o “atractivo” puede variar en gran medida entre las personas, el RLHF permite personalizar los comportamientos de la IA para satisfacer mejor las diversas expectativas de los usuarios y las normas culturales. Cada modelo se puede entrenar con comentarios de diferentes grupos de personas, lo que permite obtener una gama más amplia de respuestas similares a las humanas que tienen más probabilidades de satisfacer las preferencias de usuario específicas.

Precios de ServiceNow ServiceNow ofrece paquetes de productos competitivos que escalan contigo a medida que tu empresa crece y tus necesidades cambian. Ver precios
ServiceNow para el aprendizaje reforzado a partir de comentarios de humanos

El RLHF es un enfoque centrado en el ser humano del entrenamiento de la IA, lo que lo hace innegablemente ventajoso con los modelos de lenguaje diseñados para interactuar directamente con los usuarios. ServiceNow, líder en automatización de flujos de trabajo, potencia este concepto.

Now Platform®, la galardonada plataforma de ServiceNow, está totalmente integrada con competencias avanzadas de IA capaces de respaldar las estrategias de RLHF de tu empresa. Con características diseñadas para mejorar las experiencias de usuario y optimizar las operaciones, Now Platform facilita la creación y el mantenimiento de flujos de trabajo inteligentes que se pueden adaptar en función de los comentarios y las interacciones de los usuarios.  

Disfruta de las herramientas integrales, el control centralizado, la visibilidad inigualable y el soporte fiable que han convertido a ServiceNow en el estándar de oro entre los proveedores de soluciones de IA. Solicita una demostración de ServiceNow hoy y comienza a optimizar tu enfoque hacia la IA.

Sumérgete incluso más en la IA generativa Acelera la productividad con Now Assist: la IA generativa integrada en Now Platform. Explorar la IA Comunícate con nosotros
Medios Artículos ¿Qué es AI? ¿Qué es la IA generativa? ¿Qué es una LLM? Informes de analista Resumen informativo de IDC: Maximiza el valor de la IA con una plataforma digital IA generativa en operaciones de TI Implementación de GenAI en la industria de las telecomunicaciones Fichas técnicas AI Search Predecir y evitar interrupciones con ServiceNow® Predictive AIOps eBooks Moderniza los servicios y las operaciones de TI con IA GenAI: ¿es realmente la gran cosa? Libere la productividad empresarial con GenAI White papers Índice de madurez de la IA empresarial GenAI para telecomunicaciones