O que são modelos de transformador?
Modelos de transformador são modelos de rede neural que aprendem contexto e significado, rastreando relacionamentos nos dados por meio de um mecanismo chamado autoatenção. Eles são capazes de identificar conexões sutis, o que lhes permite pegar as sequências de entrada e usá-las para criar resultados relevantes. Os transformadores revolucionaram a IA ao permitir um desempenho inovador em processamento de linguagem natural, visão computacional e IA generativa em grandes modelos de linguagem, tradução e raciocínio complexo.
Demonstração da IA
Fatos importantes sobre modelos de transformadores
Qual é a origem dos modelos de transformadores? Quais são os diferentes tipos de transformadores? Qual é a diferença entre os transformadores e as demais redes neurais? Por que os transformadores são importantes? Quais são os principais componentes do dos transformadores? Como funcionam os transformadores? Quais são alguns casos de uso de transformadores? Modelos de transformador na plataforma ServiceNow
Na inteligência artificial, entender e processar com precisão a linguagem humana sempre foi um desafio significativo. Os modelos tradicionais enfrentaram dificuldades para capturar complexidades e nuances, muitas vezes ficando aquém das tarefas que exigem compreensão contextual. Essa necessidade (a demanda por modelos de linguagem mais sofisticados) cresceu à medida que aplicações como tradução em tempo real e assistentes virtuais inteligentes se tornaram mais integrados à vida cotidiana. Mas, em sua essência, o problema ultrapassava a linguagem e adentrava outros aspectos da IA: a dificuldade de identificar e entender as relações entre pontos de dados em conjuntos complexos.
 
Modelos de transformador foram criados para resolver este problema. Os modelos de transformadores utilizam técnicas avançadas para entender o contexto e as conexões dentro dos dados. Aplicando modelos matemáticos detalhados, eles ajudam um sistema de IA a organizar o caos das informações inseridas, para que consiga compreender seu significado intencionado.
Expandir tudo Recolher tudo Qual é a origem dos modelos de transformadores?
Os modelos de transformador originaram-se de um inovador artigo de pesquisa de 2017, intitulado "Attention is All You Need" (Você só precisa de atenção), que introduziu uma nova arquitetura de rede neural que utilizou um mecanismo chamado autoatenção para processar e entender o contexto dentro de sequências de dados. O conceito de atenção, que é fundamental para os transformadores, foi introduzido em 2014 por Dzmitry Bahdanau et al. Bahdanau é cientista de pesquisa na ServiceNow Research. O nome "transformador" foi escolhido para refletir a capacidade do modelo de transformar representações inseridas em representações de saída mais significativas.
 
O desenvolvimento do primeiro modelo de transformador marcou um salto significativo nas funcionalidades da IA. O modelo foi treinado em menos de quatro dias, o que representou uma melhoria significativa em relação aos tempos de treinamento mais longos e com maior demanda de recursos dos modelos anteriores. Juntamente à capacidade do modelo de definir novos registros de precisão na tradução automática, isso enfatizou o potencial dos transformadores.
 
Os transformadores levaram a novos avanços no processamento de linguagem natural (NLP) e abriram os caminhos para os futuros modelos de linguagem de grande porte, como as novas soluções de IA generativa (GenAI). A introdução de transformadores não somente aumentou a precisão e a eficiência do processamento de linguagem, como também abriu caminho para a criação de aplicações de IA mais versáteis, consolidando assim seu papel de elemento essencial na IA moderna.
Conheça o Now Intelligence Descubra como a ServiceNow está tirando a IA e a análise dos laboratórios para transformar a maneira como as empresas trabalham e acelerar a transformação digital. Receba o eBook
Quais são os diferentes tipos de transformadores?
Com a contínua expansão dos modelos de transformadores para atender às necessidades de pesquisadores de IA e cientistas de computação, também está havendo um aumento na especialização. Categorias e tipos diferentes de transformadores estão evoluindo para atender a necessidades específicas. Confira a seguir algumas das arquiteturas encontradas em transformadores modernos:
 
 

BERT

Os modelos de representações de codificadores bidirecionais de transformadores (BERT) são projetados para entender o contexto das palavras com base nas palavras ao redor dela em uma frase. O modelo BERT processa o texto bidirecionalmente, capturando nuances e relacionamentos entre palavras, com mais eficácia do que os modelos anteriores. Ele é comumente usado para tarefas como responder a perguntas e fazer inferência de linguagem.

 

GPT

Os Transformadores pré-treinados generativos (Generative Pre-trained Transformers, GPTs) são modelos autorregressivos que geram texto ao prever a próxima palavra em uma sequência. Os modelos de GPT, incluindo a popular linha ChatGPT, são conhecidos pela sua capacidade de produzir texto semelhante aos dos humanos, e são utilizados em muitas aplicações, tanto profissionais como pessoais.

 

BART

Os Transformadores bidirecionais e autorregressivos (Bidirectional and Auto-regressive Transformers, BART) combinam a compreensão de contexto bidirecional do BERT com a geração de texto autorregressivo do GPT. Esse modelo é eficaz em tarefas de geração de texto, resumo e tradução, fornecendo recursos versáteis para processar e criar resultados de texto coerentes.

 

Multimodal

Transformadores multimodais integram dados de texto e imagem, possibilitando que os sistemas de IA entendam e gerem conteúdo em vários tipos de mídia. Esses modelos são fundamentais para tarefas que exijam interpretação simultânea de texto e elementos visuais, como responder a perguntas visuais e criar legendas de imagens.

 

ViT

Os transformadores de visão (Vision Transformers, ViT) adaptam a arquitetura do transformador para o processamento de imagens, tratando imagens como sequências de patches. Cada patch é processado de forma semelhante à maneira como as palavras são processadas em texto, permitindo que o modelo capture relacionamentos contextuais dentro da imagem. Os ViTs são usados na classificação de imagens, detecção de objetos e em outras tarefas de visão computacional.
Qual é a diferença entre os transformadores e as demais redes neurais?
Os transformadores são considerados modelos de aprendizado profundo, o que significa que se enquadram na categoria de redes neurais. Mas isso não significa que sejam iguais aos outros exemplos dessa tecnologia. Especificamente, os modelos de transformadores diferem das redes neurais recorrentes (Recurrent Neural Networks, RNNs) e das redes neurais convolucionais (Convolutional Neural Networks, CNNs).
 

Transformadores versus RNNs

As redes neurais recorrentes abordam os dados sequencialmente, o que significa que cada token é processado um após o outro, e eles podem ter dificuldades no caso de dependências de longo alcance, pois as informações podem se perder em sequências longas. Os transformadores, por outro lado, usam mecanismos de autoatenção que permitem que todos os tokens da sequência sejam simultaneamente levados em consideração. Esse processamento paralelo permite que os transformadores capturem dependências de longo alcance com mais eficiência e treinem com mais rapidez do que é possível com as RNNs.

 

Transformadores versus CNN

As redes neurais convolucionais se destacam no processamento de dados semelhantes a grade (como imagens), detectando padrões locais. No entanto, as CNNs são menos eficazes na captura de relacionamentos globais dentro dos dados. Os transformadores superam isso por meio do uso da autoatenção para ponderar a importância de diferentes partes dos dados inseridos como parte do todo maior. Embora as CNNs sejam usadas principalmente para tarefas como o reconhecimento de imagem, os transformadores foram adaptados para o processamento de texto e imagem, fornecendo um conjunto mais versátil de soluções.

 

Por que os transformadores são importantes?
Como mencionamos acima, para o campo da IA, os transformadores eram apenas uma introdução transformadora que solucionava limitações importantes e que abriu portas para inovações significativas. As vantagens que essa tecnologia possibilita são muitas e variadas, mas alguns dos benefícios mais significativos são:
 
Dimensionamento dos modelos de IA
Os transformadores têm uma arquitetura modular, com camadas e cabeças de atenção que podem ser facilmente dimensionadas. Isso permite a criação de modelos de grande escala capazes de lidar eficientemente com extensas sequências de dados. Ao processar sequências longas em paralelo, os transformadores reduzem significativamente os tempos de treinamento e de processamento. Essa eficiência permite o desenvolvimento de modelos avançados (como o BERT e o GPT) que conseguem capturar representações de linguagem complexas em bilhões de parâmetros.
 
Eficiência na personalização do modelo
Técnicas como aprendizado de transferência e geração aumentada de recuperação (Retrieval Augmented Generation, RAG) facilitam que a personalização seja feita com mais rapidez e eficácia. Pré-treinados em grandes conjuntos de dados, esses modelos podem ser ajustados em conjuntos de dados menores e específicos, viabilizando aplicações personalizadas para diferentes setores, sem a necessidade de grandes investimentos – mas, na verdade, democratizando o acesso à IA avançada.
 
Integração de recursos multimodais
Os transformadores viabilizam o desenvolvimento de sistemas de IA multimodais, capazes de interpretar e gerar conteúdo a partir de diferentes tipos de dados, como a criação de imagens a partir de descrições textuais. Ao combinar processamento de linguagem natural e visão computacional, os transformadores possibilitam compreensão e criatividade mais abrangentes e semelhantes às dos humanos.
 
Avanço nas pesquisas e nas inovações de IA
Os transformadores impulsionam avanços significativos na pesquisa de IA e na inovação do setor, como a codificação posicional e os mecanismos de autoatenção. A codificação posicional ajuda os modelos a rastrearem a posição das palavras em uma sequência, enquanto a autoatenção permite que os modelos ponderem a importância de diferentes palavras com base em sua relevância para o contexto geral. Essas inovações levaram ao desenvolvimento acelerado de novas arquiteturas e aplicações de IA.
Quais são os principais componentes do dos transformadores?
Assim como os dados que lhe são inseridos, os modelos de transformadores são complexos e elaborados, desenvolvidos sobre várias camadas de software que operam em conjunto para criar resultados relevantes e inteligentes. Cada um dos seguintes componentes é essencial para esse processo:

 

  • Representações vetoriais de entrada
  • As representações vetoriais de entrada convertem sequências de entrada em vetores matemáticos que os modelos de IA consigam processar. Tokens (como palavras) são transformados em vetores que carregam informações semânticas e sintáticas aprendidas durante o treinamento.

  • Codificação posicional
  • A codificação posicional adiciona sinais exclusivos à representação vetorial de cada token para indicar sua posição na sequência. Isso garante que o modelo preserve a ordem dos tokens e entenda seu contexto dentro da sequência.

  • Bloco do transformador
  • Cada bloco do transformador consiste em um mecanismo de autoatenção multicabeças e uma rede neural feed-forward. A autoatenção pondera a importância de diferentes tokens, enquanto a rede feed-forward processa essas informações.

  • Blocos lineares/softmax
  • O bloco linear mapeia representações internas complexas de volta ao domínio de entrada original. A função Softmax converte o resultado em uma distribuição de probabilidade, representando a confiança do modelo em cada previsão possível.

 

Como funcionam os transformadores?
Transformar sequências de entrada complexas em resultados relevantes não é tarefa simples. Isso depende de várias etapas essenciais que integram os principais componentes identificados acima. Essas camadas de software tentam replicar a função do cérebro humano, operando conjuntamente para proporcionar ao sistema o poder de processamento necessário para resolver problemas difíceis. Essas redes neurais processam cada parte dos dados em sequência, simultaneamente. Conforme isso vai acontecendo, os dados vão passando pelas seguintes etapas:

 

  1. A sequência de entrada é transformada em representações numéricas chamadas de representações vetoriais, que capturam o significado semântico dos tokens.

  2. A codificação posicional adiciona sinais exclusivos à incorporação de cada token para preservar a ordem dos tokens na sequência.

  3. O mecanismo de atenção multicabeças processa essas representações vetoriais para capturar diferentes relacionamentos entre os tokens.

  4. A normalização da camada e as conexões residuais estabilizam e aceleram o processo de treinamento.

  5. A saída da camada de autoatenção passa por redes neurais feed-forward para fins de transformações não lineares.

  6. Vários blocos de transformador são empilhados, cada um deles refinando o resultado da camada anterior.

  7. Em tarefas como a tradução, um módulo decodificador separado gera a sequência do resultado.

  8. O modelo é treinado por meio de aprendizado supervisionado para minimizar a diferença entre as previsões e o rótulo verdadeiro.

  9. Durante a inferência, o modelo treinado processa novas sequências de entrada para gerar previsões ou representações.
Quais são alguns casos de uso de modelos de transformadores?
Os transformadores têm aplicações praticamente ilimitadas nos negócios, o que possibilita a automatização das tarefas complexas de processamento de dados, a aprimoração das interações com os clientes e o impulsionamento da inovação em áreas como saúde, finanças e setores criativos. Alguns dos usos mais notáveis dos modelos de transformadores incluem:

 

  • Processamento de linguagem natural
  • Os transformadores capacitam as máquinas a entender, interpretar e gerar linguagem humana com mais precisão. Isso viabiliza aplicações como a geração de resumos de documentos e criação de assistentes virtuais, que dependem de uma linguagem precisa de compreensão.

  • Tradução de máquina
  • Também é possível gerar traduções precisas e em tempo real entre idiomas. A capacidade dos transformadores de lidar com dependências e contexto de longo alcance melhora significativamente a precisão das traduções, especialmente em comparação com as soluções anteriores de localização e substituição.

  • Reconhecimento de fala
  • As aplicações de conversão de fala em texto podem ser aprimoradas por meio da transcrição precisa do idioma falado em texto escrito. Isso é particularmente útil no desenvolvimento de aplicações controladas por voz e na melhoria da acessibilidade para as pessoas com deficiência auditiva.

  • Geração de imagens
  • Os modelos de geração de imagens usam transformadores para criar mídias visuais a partir de descrições textuais, mesclando processamento de linguagem natural e visão computacional. Esse recurso é usado em aplicações criativas, de marketing e muitas outras.

  • Análise de sequência de DNA
  • Ao tratar sequências de DNA de forma semelhante ao texto, os transformadores podem ser treinados para prever mutações genéticas, entender padrões genéticos e identificar regiões relacionadas à doença.

  • Análise da estrutura das proteínas
  • Os transformadores podem modelar a natureza sequencial dos aminoácidos nas proteínas, prevendo suas estruturas em 3D. Essa compreensão é vital para a descoberta de fármacos e para o entendimento dos processos biológicos.

Preços da ServiceNow A ServiceNow oferece pacotes de produtos competitivos que se adaptam ao crescimento e às necessidades em constante mudança da sua empresa. Acessar preços
Modelos de transformador na plataforma ServiceNow
Ao possibilitarem o processamento avançado de linguagem natural, a tradução automática, o reconhecimento de fala e muito mais, os transformadores mudaram para sempre a forma como as empresas usam a IA, aprimorando as operações em todos os setores e mercados. Dito isso, nem todas as abordagens de IA fazem o melhor uso possível da tecnologia de transformadores.
 
A ServiceNow é um parceiro essencial para que você consiga aproveitar adequadamente a IA e otimizar seus negócios. Com base na Now Platform® aprimorada por IA, a variedade de aplicações da ServiceNow incorpora modelos de IA e transformador para oferecer fácil acesso à compreensão de linguagem, análise preditiva, fluxos de trabalho automatizados e muito mais. Essas ferramentas capacitam as organizações a simplificarem operações como nunca antes, aprimorando as interações com os clientes, obtendo informações claras e transformando dados complexos em verdadeira vantagem competitiva.
 
Saiba como os transformadores podem transformar sua organização para melhor. Faça uma demonstração da ServiceNow hoje mesmo!

 

Explorar fluxos de trabalho de IA Descubra como a plataforma ServiceNow leva a utilidade da IA a todos os aspectos da sua empresa. Explore a IA generativa Fale conosco
Recursos Artigos O que é IA?  O que é a IA generativa? Relatórios dos analistas IDC InfoBrief: Maximize AI Value with a Digital Platform (Maximize o valor da IA com uma plataforma digital) Generative AI in IT Operations (IA generativa em operações de TI) Implementação da IA generativa no setor de telecomunicações Folhas de dados AI Search (Pesquisa com IA) Preveja e evite indisponibilidades com a AIOps preditiva da ServiceNow® Gestão de recursos eBooks Modernize IT Services and Operations with AI (Modernize serviços e operações de TI com a IA) GenAI: Is it really that big of a deal? (IA generativa: é tudo isso mesmo?) Libere a produtividade em toda a empresa com a GenAI White Papers Enterprise AI Maturity Index (Índice de maturidade da IA empresarial) GenAI for Telco (IA generativa para telecomunicações)