O que é RLFHF (reinforcement learning from human feedback, aprendizado de reforço com feedback humano)?

O aprendizado de reforço com feedback humano (RLHF) é uma técnica no aprendizado de máquina em que os modelos de IA aprendem comportamentos por meio de feedback humano direto, em vez de funções de recompensa mais tradicionais, melhorando efetivamente seu desempenho e alinhando melhor a IA às expectativas e aos objetivos humanos.

Demonstração da IA
Fatos importantes sobre a RLHF
Qual é a diferença entre RLHF e RL tradicional? O que é o processo de treinamento de RLHF? Por que o RLHF é importante? Quais são os desafios do RLHF? Como o RLHF funciona? Como o RLHF pode melhorar a IA generativa? ServiceNow para aprendizado de reforço com feedback humano

A maioria dos modelos modernos de linguagem de IA é surpreendentemente hábil em gerar texto preciso, relevante e semelhante ao texto humano. Infelizmente, mesmo com todos esses recursos, esses modelos nem sempre criam conteúdo considerado “bom” pelos usuários. Isso acontece, pelo menos em parte, porque “bom” é um conceito muito difícil de definir: indivíduos diferentes desejam coisas diferentes dos modelos de linguagem de IA, e o que caracteriza uma boa resposta naturalmente varia conforme os padrões do usuário e o contexto da situação.

Os métodos tradicionais de treinamento de IA pouco fazem para lidar com essas questões. Em vez disso, eles são normalmente projetados para prever a próxima palavra mais provável em uma sequência, com base nas sequências reais de palavras apresentadas em seus conjuntos de dados. Métricas podem ser empregadas para comparar o conteúdo gerado com textos de referência específicos, mas ainda deixam a desejar. No final, apenas o julgamento humano é capaz de determinar se o texto gerado por IA é “bom”. Este é o raciocínio por trás do aprendizado de reforço com feedback humano, ou RLHF.

RLHF é um método usado para refinar modelos de linguagem de IA além das abordagens tradicionais de treinamento. Ele envolve o treinamento do modelo com base em preferências ou correções realizadas por humanos. Em vez de apenas prever as sequências de palavras ao analisar dados, a IA pode aplicar o RLHF para se alinhar melhor às ideias humanas do que constitui uma resposta boa ou útil, de acordo com os padrões humanos. O conceito de RLHF foi sugerido pela primeira vez pela OpenAI em 2019, e é uma evolução do RL (reinforcement learning, aprendizado de reforço).

 

Expandir tudo Fechar tudo Qual é a diferença entre RLHF e RL tradicional?

 O aprendizado de reforço com feedback humano e o aprendizado de reforço tradicional são métodos de ML (machine learning, aprendizado de máquina) para treinamento de sistemas de IA, mas diferem significativamente na forma como orientam o processo de aprendizado. O RL tradicional depende de sinais de recompensa do ambiente, o que significa que a IA recebe feedback de suas ações dentro de um conjunto predefinido de automações e aprende a maximizar essas recompensas por meio de tentativa e erro. Esse feedback automatizado ajuda a definir o que é correto ou natural, mas não necessariamente se alinha às preferências humanas complexas.

Em contraste, o RLHF incorpora feedback humano direto no ciclo de aprendizado, fornecendo à IA informações reais e contextualmente relevantes sobre o que os seres humanos consideram resultados de alta qualidade ou desejáveis. Esse método permite que a IA aprenda não apenas a executar tarefas, mas a adaptar suas respostas de acordo com julgamentos humanos, tornando-se mais eficaz para aplicações em que a compreensão humana é essencial.

Conheça o Now Intelligence Descubra como a ServiceNow está tirando a IA e a análise dos laboratórios para transformar a maneira como as empresas trabalham e acelerar a transformação digital. Receba o eBook
O que é o processo de treinamento de RLHF?

O RLHF é uma abordagem exclusiva para treinar modelos de linguagem de IA que envolve várias etapas críticas projetadas para aproximar a IA às expectativas e aos valores humanos. Os principais aspectos dessas etapas incluem:

Pré-treinamento do modelo de idioma

A base do RLHF envolve o pré-treinamento de um modelo de linguagem em um grande corpus de dados de texto. Essa fase permite que o modelo aprenda uma ampla gama de padrões e contextos de linguagem antes de qualquer um dos treinamentos mais especializados.

O pré-treinamento capacita a IA com habilidades linguísticas gerais, para que ela entenda e gere texto coerente. Essa etapa normalmente usa técnicas de aprendizado não supervisionado, em que o modelo aprende a prever a próxima palavra em frases sem qualquer feedback explícito sobre a qualidade de suas saídas.

Treinamento de um modelo de recompensa

Quando o pré-treinamento inicial é concluído, a próxima etapa é a coleta de dados especificamente projetados para treinar um modelo de recompensa. Esse modelo é fundamental para o RLHF, pois converte avaliações humanas das saídas de texto do modelo em um sinal numérico de recompensa.

O treinamento de um modelo de recompensa de RLHF começa com a coleta de feedback humano sobre as saídas geradas pelo LM. Esse feedback pode incluir classificações diretas, avaliações ou escolhas entre as opções disponíveis. Os dados coletados são usados para ensinar o modelo de recompensa a estimar o quão bem o texto se alinha às preferências humanas. A eficácia do modelo de recompensa depende da qualidade e do volume de feedback humano.

Aplicação do aprendizado de reforço

A fase final do processo de RLHF envolve o refinamento do modelo de linguagem pré-treinado usando o modelo de recompensa treinado por técnicas de aprendizado de reforço. Esta fase ajusta os parâmetros do LM para maximizar as recompensas que recebe do modelo de recompensa, otimizando efetivamente a geração de texto para produzir saídas mais alinhadas às preferências humanas.

O uso do aprendizado de reforço permite que o modelo melhore iterativamente com base no feedback contínuo, melhorando sua capacidade de gerar texto que atenda a padrões humanos específicos ou que atinja outros objetivos especificados. 

Por que o RLHF é importante?

O aprendizado de reforço com feedback humano representa um avanço significativo no treinamento de IA, superando os métodos tradicionais para incorporar informações humanas diretas ao desenvolvimento de modelos. Simplificando, ele pode fazer mais do que apenas prever quais palavras devem (estatisticamente falando) aparecer a seguir em uma sequência. Isso aproxima o mundo da criação de modelos de linguagem de IA capazes de oferecer respostas verdadeiramente inteligentes.

Benefícios do RLHF

É claro que o RLHF traz muitas vantagens mais imediatas, especialmente no que diz respeito às empresas. Essa abordagem de treinamento de IA oferece vários benefícios notáveis, como:

  • Redução do tempo de treinamento 
    Ao integrar feedback direto, o RLHF acelera o processo de aprendizado, permitindo que os modelos alcancem os resultados desejados mais rapidamente. Isso pode ser aplicado a chatbots internos e externos, para que eles entendam e respondam mais rapidamente a diversas consultas de usuários.

  • Possibilidade de adotar parâmetros de treinamento mais complexos 
    Usando o julgamento humano para orientar o aprendizado e estabelecer parâmetros em áreas consideradas subjetivas, o RLHF é capaz de lidar com cenários de treinamento sutis e sofisticados, com os quais os modelos tradicionais não conseguem lidar. Os sistemas de recomendação de conteúdo podem se beneficiar desse aspecto do RLHF, ajustando-se a variações sutis nas preferências do usuário ao longo do tempo.

  • Melhoria do desempenho da IA 
    Os modelos treinados com RLHF normalmente apresentam um melhor desempenho, pois são continuamente refinados por feedback iterativo para melhor atender aos padrões humanos. O aprimoramento do desempenho das ferramentas de tradução com o RLHF produz traduções mais naturais e contextualmente relevantes.

  • Minimização de riscos 
    A incorporação do feedback humano garante que os sistemas de IA ajam de maneiras esperadas e pretendidas, minimizando o risco de comportamentos prejudiciais ou não intencionais. Por exemplo, a implantação de veículos autônomos é beneficiada pela maior supervisão humana no treinamento de IA.

  • Aumento da segurança 
    Os modelos de treinamento com foco no feedback humano garantem que os sistemas de IA ajam de maneiras seguras e previsíveis em cenários reais. Melhorar os sistemas de diagnóstico médico com RLHF ajuda os profissionais de saúde que utilizam IA a evitar recomendações prejudiciais e priorizar melhor a segurança do paciente.

  • Manutenção da ética 
    O RLHF permite que os modelos reflitam considerações éticas e normas sociais, garantindo que as decisões de IA sejam tomadas levando em conta os valores humanos. Os vieses podem ser identificados e eliminados de forma mais imediata, evitando que apareçam em publicações geradas para as redes sociais ou em outros conteúdos da marca.

  • Aumento da satisfação do usuário 
    Ao alinhar melhor as saídas de IA às expectativas humanas, o RLHF melhora a experiência geral do usuário.

  • Garantia de aprendizado e adaptação contínuos 
    Os modelos de RLHF adaptam-se ao longo do tempo a novas informações e mudanças nas preferências humanas, mantendo sua relevância e eficácia.

Quais são os desafios do RLHF?

Embora o aprendizado de reforço com feedback humano ofereça inúmeros benefícios, ele também traz vários desafios que podem impedir sua eficácia nos negócios. Entender os desafios a seguir é crucial para as organizações que consideram adotar o RLHF como opção para aprimorar seus sistemas de IA:

A participação humana pode ser cara

A necessidade de entrada humana contínua pode tornar o RLHF caro, especialmente porque são necessários anotadores especialistas para fornecer feedback preciso e útil. Automatizar partes do processo de feedback por meio de técnicas de aprendizado de máquina pode ser uma solução parcial, reduzindo parte da dependência de contribuições humanas e, assim, reduzindo os custos.

O feedback humano é altamente subjetivo e pode introduzir erros ou vieses

Os julgamentos humanos podem variar muito e são frequentemente influenciados por vieses individuais. Isso pode afetar a consistência e a confiabilidade dos dados de treinamento. Para combater esse risco, use um grupo diversificado de anotadores humanos capazes de fornecer uma perspectiva mais equilibrada sobre o desempenho da IA.

Seres humanos tendem a discordar uns dos outros

Os anotadores humanos nem sempre concordam sobre o que constitui uma resposta “boa” ou “útil”, o que pode resultar em avaliações inconsistentes ou contraditórias. Para garantir a solidariedade, podem ser utilizados mecanismos de resolução de conflitos e estratégias de construção de consenso entre as equipes de revisão, no intuito de incentivar um feedback mais harmonizado.

Como o RLHF funciona?

Incorporar feedback humano ao treinamento de IA pode parecer uma abordagem menos complicada quando comparada a métodos de treinamento mais autônomos. A realidade é que o RLHF aproveita modelos matemáticos complexos para otimizar o comportamento da IA, com base em contribuições humanas repletas de nuances. Essa abordagem sofisticada combina feedback avaliativo humano com treinamento algorítmico para orientar os sistemas de IA, tornando-os mais eficazes e capazes de responder às preferências humanas.

Estes são os componentes essenciais envolvidos neste processo: 

Espaço de estados

O espaço de estados no RLHF representa todas as informações relevantes disponíveis para a IA a qualquer momento durante seu processo de tomada de decisão. Isso inclui todas as variáveis que podem influenciar as decisões da IA, sejam elas já fornecidas ou pendente de inferência. O espaço de estado é dinâmico e muda à medida que a IA interage com seu ambiente e coleta novos dados.

Espaço de ação

O espaço de ação é extraordinariamente vasto, abrangendo um conjunto completo de respostas ou gerações de texto que o modelo de IA poderia produzir em resposta a um prompt. A enormidade do espaço de ação nos modelos de linguagem torna o RLHF particularmente desafiador, mas também incrivelmente poderoso para gerar respostas contextualmente apropriadas.

Função de recompensa

A função de recompensa no RLHF quantifica o sucesso das ações da IA com base no feedback humano. Ao contrário do aprendizado de reforço tradicional, onde as recompensas são predefinidas e muitas vezes simplistas, o RLHF usa feedback humano para criar um sinal de recompensa com mais nuances. O feedback avalia as saídas da IA com base na qualidade, relevância ou adesão aos valores humanos, convertendo essa avaliação em uma medida quantitativa que impulsiona o aprendizado.

Restrições

Restrições são usadas para afastar a IA de comportamentos indesejáveis. Elas podem ser diretrizes éticas, considerações de segurança ou simplesmente limites estabelecidos dentro dos quais a IA deve operar. Por exemplo, um modelo de linguagem pode ser penalizado por gerar conteúdo ofensivo ou desviar-se muito de um tópico. As restrições ajudam a garantir que as saídas da IA permaneçam dentro dos limites do que é considerado aceitável ou pretendido pelos instrutores humanos.

Política

A política de RLHF dita o processo de tomada de decisões da IA, mapeando do estado atual para a próxima ação. Essa é essencialmente a diretriz de comportamento do modelo, que é otimizada continuamente com base no feedback de recompensa. O objetivo da política é maximizar a recompensa cumulativa, alinhando melhor as ações da IA às expectativas e preferências humanas.

Como o RLHF pode melhorar a IA generativa?

Como uma abordagem poderosa e inovadora para o treinamento de linguagem de IA, o RLHF também está tendo um impacto claro no campo relacionado da IA generativa (GenAI). Isso possibiliza saídas mais perspicazes e contextualmente apropriadas em várias aplicações generativas. Exemplos de como o RLHF pode ser aplicado à IA generativa:

Ampliação das áreas de aplicação

A utilidade do RLHF vai além dos modelos de linguagem e abrange outras formas de IA generativa, como geração de imagem e música. Por exemplo, na geração de imagens de IA, o RLHF pode ser usado para avaliar e melhorar o realismo ou o impacto emocional de obras de arte, elementos cruciais para aplicações em arte digital ou publicidade. Da mesma forma, na geração de música, o RLHF ajuda a criar faixas que ressoam melhor com tons ou atividades emocionais específicas, aumentando o engajamento do usuário em áreas como aplicativos fitness ou terapia de saúde mental. Isso pode levar a IA generativa além da aplicação mais comum de gerar conteúdo escrito.

Melhoria dos assistentes de voz

Na tecnologia de voz, o RLHF refina a forma como os assistentes de voz interagem com os usuários, tornando-os mais amigáveis, curiosos, confiáveis, etc. Ao treinar assistentes de voz para responder de forma cada vez mais humana, o RLHF aumenta a probabilidade de satisfação e engajamento do usuário no longo prazo.

Manipulação da subjetividade na comunicação humana

Considerando que o que é considerado “útil” ou “atrativo” pode variar muito entre os indivíduos, o RLHF permite a personalização de comportamentos de IA para atender melhor às diversas expectativas do usuário e normas culturais. Cada modelo pode ser treinado com feedback de diferentes grupos de pessoas, o que permite uma gama mais ampla de respostas semelhantes a respostas humanas e que têm mais chances de atender às preferências específicas do usuário.

Preços da ServiceNow A ServiceNow oferece pacotes de produtos competitivos que se adaptam ao crescimento e às necessidades em constante mudança da sua empresa. Peça um orçamento
ServiceNow para aprendizado de reforço com feedback humano

O RLHF é uma abordagem centrada no ser humano para o treinamento de IA, o que o torna inegavelmente vantajoso para modelos de linguagem projetados para interagir diretamente com os usuários. A ServiceNow, líder em automação de fluxos de trabalho, aproveitou esse conceito.

A premiada Now Platform® da ServiceNow está totalmente integrada a recursos avançados de IA capazes de dar suporte às estratégias de RLHF da sua empresa. Com recursos projetados para aprimorar as experiências do usuário e simplificar as operações, a Now Platform facilita a criação e a manutenção de fluxos de trabalho inteligentes que podem se adaptar com base no feedback e nas interações do usuário.  

Aproveite as ferramentas abrangentes, o controle centralizado, a visibilidade incomparável e o suporte confiável que transformaram a ServiceNow no padrão-ouro entre os provedores de soluções de IA. Faça uma demonstração da ServiceNow hoje mesmo e comece a otimizar sua abordagem de IA.

Conheça melhor a IA generativa Acelere a produtividade com o Now Assist: a IA generativa integrada diretamente à Now Platform. Explore a IA Fale conosco
Recursos Artigos O que é AI? O que é IA generativa? O que é um LLM? Relatórios dos analistas InfoBrief da IDC: Maximize AI Value with a Digital Platform (Maximize o valor da IA com uma plataforma digital) IA generativa em operações de TI Implementação da IA generativa no setor de telecomunicações Folhas de dados Pesquisa com IA Preveja e evite indisponibilidades com a AIOps preditiva da ServiceNow® eBooks Modernize serviços e operações de TI com a IA GenAI: Is it really that big of a deal? (IA generativa: é tudo isso mesmo?) Libere a produtividade empresarial com a IA generativa White papers Índice de maturidade da IA empresarial IA generativa para telecomunicações