Cada modelo de inteligência artificial depende de grandes quantidades de dados para funcionar de forma eficaz: quanto mais diversificado e abrangente for o conjunto de dados, melhores serão o aprendizado, a adaptação e a execução da IA. Dessa forma, é necessário que se tenham quantidades substanciais de dados de alta qualidade para o treinamento de modelos de IA utilizáveis. Isso pode criar preocupações em potencial. A obtenção de dados pode ser difícil de se realizar, e os métodos tradicionais de coleta de dados, além de serem geralmente demorados e caros, podem até mesmo criar problemas relacionados a questões de privacidade e informações tendenciosas. Para combater esses e outros problemas, as empresas que trabalham com IA estão recorrendo a uma fonte simulada para treinar seus sistemas inteligentes; ou seja, os dados sintéticos.
Dados sintéticos são informações geradas artificialmente, projetadas para imitar dados reais. Eles oferecem uma solução para muitos dos desafios associados ao uso de dados reais. Ao aproveitarem os modelos avançados de IA generativa (GenAI), os dados sintéticos oferecem uma alternativa versátil e ética que pode melhorar o desenvolvimento da IA sem introduzir os riscos comumente associados ao treinamento de IA.
Antes de nos aprofundarmos muito nas especificidades, vale a pena apresentar brevemente as diferenças entre dados sintéticos e dados reais:
- Dados sintéticos são gerados artificialmente para imitarem as propriedades estatísticas dos dados reais. Os dados sintéticos não incluem pontos de dados reais que se correlacionem às informações do mundo real.
- Os dados reais são coletados a partir de eventos, indivíduos e interações do mundo real; seus pontos de dados contêm informações reais que podem ser de natureza confidencial. .
Ao usarem dados sintéticos corretamente gerados, as empresas podem obter as vantagens do treinamento abrangente de dados, sem o risco de exporem dados reais ou de incorporarem informações tendenciosas ou irrelevantes aos seus conjuntos de dados de treinamento.
Os dados simulados começaram a surgir na década de 1940, quando as simulações de Monte Carlo foram amplamente utilizadas no Projeto Manhattan para modelarem cenários complexos e probabilísticos. Esse trabalho pioneiro abriu caminho para o uso de dados artificiais na replicação de condições reais. Na década de 1990, dados simulados eram frequentemente usados em análises estatísticas e computação gráfica, com aplicações em engenharia aeroespacial e automotiva para testar sistemas em variadas condições hipotéticas.
Conforme foi crescendo a demanda por conjuntos de dados maiores e mais diversificados a partir dos anos 2000, as limitações dos dados reais foram ficando evidentes. Os pesquisadores recorreram a modelos generativos, como redes adversariais generativas (Generative Adversarial Networks, GANs) e autocodificadores variacionais (Variational Autoencoders, VAEs), para produzir dados sintéticos de alta fidelidade com aprendizado por meio de amostras de dados reais. Hoje, os dados sintéticos são uma ferramenta essencial para treinar e testar sistemas de IA de maneira controlada, escalável e livre de riscos.
Dados sintéticos não são uma solução ao estilo "tudo ou nada". Pelo contrário, as organizações podem escolher quantos dados sintéticos desejam incluir em seus conjuntos de treinamento. Assim, surgiram três categorias ou tipos diferentes de inserção de dados sintéticos:
Como o nome sugere, esse tipo de conjunto de dados não usa dados reais, e conta inteiramente com o uso de algoritmos para gerar dados sintéticos com propriedades estatísticas do mundo real. Os dados totalmente sintéticos fornecem a mais forte proteção de privacidade (pois não contêm informações pessoais reais), eliminam os riscos associados às informações tendenciosas (permitindo a criação de conjuntos de dados projetados para serem imparciais e representativos) e são altamente flexíveis. Infelizmente, também podem deixar a desejar em algumas nuances de dados reais, o que potencialmente afeta o desempenho do modelo em aplicações do mundo real.
Essa abordagem substitui apenas algumas informações confidenciais por valores sintéticos, mantendo partes dos dados reais e equilibrando privacidade e segurança com a retenção de valiosas caraterísticas dos dados reais. Essa abordagem ainda traz algum risco de vazamento de informações e pode não eliminar totalmente as informações tendenciosas que estejam ocultas nos dados reais.
A abordagem híbrida combina dados reais e sintéticos, pareando registros aleatórios de dados reais com dados sintéticos semelhantes. Isso proporciona uma boa combinação de benefícios, garantindo um treinamento abrangente dos modelos e aumentando a privacidade. Essa abordagem também requer mais tempo de processamento e memória, e o gerenciamento da integração entre dados reais e sintéticos pode ser uma tarefa complexa.
Os dados sintéticos compartilham certas semelhanças com o conceito de dados aprimorados, embora haja várias diferenças importantes:
Os dados aprimorados envolvem o aprimoramento dos conjuntos de dados existentes no mundo real. Esse método expande os conjuntos de dados sem gerar dados totalmente novos (como por meio da rotação ou da iluminação dos dados de imagem), o que o torna útil para melhorar o treinamento de IA sem coletar dados reais adicionais. No entanto, ele não aborda preocupações de privacidade ou informações tendenciosas de dados de forma eficaz, e ainda depende de quantidades substanciais de dados reais para funcionar.
Os dados anonimizados, por outro lado, removem ou ofuscam informações pessoais dos conjuntos de dados reais, para proteger a privacidade. Embora isso ajude a atender aos requisitos regulatórios e a reduza os riscos de privacidade, ela ainda pode manter informações tendenciosas subjacentes e pode não remover totalmente todas as informações confidenciais.
Em contraste com essas outras abordagens, os dados sintéticos são gerados inteiramente por algoritmos, para imitar as propriedades estatísticas dos dados do mundo real, sem usar pontos de dados reais. Essa abordagem oferece uma proteção de privacidade mais completa e permite a criação de conjuntos de dados diversificados e não tendenciosos, adaptados a necessidades específicas. Isso faz com que os dados sintéticos sejam uma solução mais versátil e ética para o treinamento de IA atualmente disponível.
Trabalhar com dados que correspondam às propriedades dos dados reais, sem conexão com fontes reais específicas, oferece muitas vantagens. Entre os benefícios comerciais mais notáveis estão:
Os dados sintéticos foram projetados para serem consistentes e não terem erros. Ao eliminar imprecisões e inconsistências encontradas em dados reais, os dados sintéticos garantem inserções de dados de alta qualidade, levando a modelos de IA mais precisos.
Os dados sintéticos eliminam os riscos relacionados a informações pessoais comprometidas. Eles atendem às normas de privacidade e reduzem o risco de violações de dados.
Dados sintéticos podem ser gerados em enormes quantidades muito rapidamente. Essa escalabilidade garante que as organizações consigam refinar e melhorar continuamente seus modelos, sem as restrições de dados limitados.
Normalmente, a geração de dados sintéticos é mais barata do que a coleta e a rotulação de dados reais. Por isso, essa é uma opção atraente para as organizações que buscam otimizar sua IA dentro de limites de orçamentos restritos.
Dados sintéticos podem ser criados para lidar e mitigar as informações tendenciosas inerentes aos dados do mundo real. Isso ajuda a desenvolver sistemas de IA mais imparciais, que tenham um desempenho mais equitativos em diferentes grupos e cenários demográficos.
Os dados sintéticos podem ser adaptados a necessidades específicas, garantindo sua relevância e precisão para a aplicação desejada. A personalização permite a criação de dados que correspondam precisamente aos requisitos de modelos de IA específicos.
Os usuários podem ditar os parâmetros de geração de dados, garantindo que o conjunto de dados atenda a requisitos específicos. Isso possibilita que as empresas criem dados que atendam precisamente às necessidades do seu modelo de IA, o que resulta em soluções mais eficazes e direcionadas.
Os dados sintéticos incluem a rotulagem inerente, o que reduz a necessidade de anotação manual. A automação da rotulagem acelera o processo de preparação de dados e reduz os custos de mão de obra.
Os dados sintéticos podem ser produzidos muito mais rapidamente do que os métodos tradicionais de coleta de dados. Ao acelerar o desenvolvimento e a implantação de modelos de IA, as empresas podem colocar em funcionamento suas soluções de IA totalmente treinadas, com muito mais rapidez do que seria possível de outra forma.
Além dos benefícios listados acima, os dados sintéticos oferecem vantagens específicas para modelos de aprendizado de máquina (ML). Ainda mais do que muitas outras abordagens de IA, o aprendizado de máquina depende muito de grandes quantidades de dados de treinamento, dados que podem ser fornecidos mais rapidamente e a um custo menor quando são gerados sinteticamente.
Outra área em que os dados sintéticos são significativamente especiais para o aprendizado de máquina é o desenvolvimento de repositórios de dados para modelos de ML pré-treinamento por meio do aprendizado por transferência. Isso envolve a redefinição de dados de treinamento para outras tarefas relacionadas. Os novos modelos de ML podem sair com uma vantagem inicial, em vez de precisarem ser iniciados do zero, ao serem pré-treinados por meio de aprendizado por transferência e, em seguida, incorporarem dados sintéticos adicionais para ajudar a ajustar seus processos.
Embora os dados sintéticos ofereçam inúmeros benefícios, eles também apresentam vários desafios. Para garantir o melhor resultado dos dados sintéticos, esteja ciente dos seguintes obstáculos e saiba como eliminá-los:
Pode ser difícil conseguir garantir que os dados sintéticos reflitam com precisão as condições reais. Se os dados gerados não forem confiáveis, isso pode levar a um desempenho ruim de modelo e a previsões imprecisas. As organizações devem usar modelos generativos avançados e validar continuamente os dados sintéticos em relação a conjuntos de dados do mundo real para melhorar sua confiabilidade.
Os dados sintéticos são uma representação de como a organização ou o modelo generativo acredita que os dados devem ser; eles podem não capturar eventos raros ou valores atípicos de maneira eficaz. Infelizmente, esses valores atípicos podem ser cruciais para o treinamento de modelos eficazes, especialmente em campos como detecção de fraude. A implementação de técnicas para especificamente modelar e incluir valores atípicos pode ajudar a garantir que eles sejam representados nos conjuntos de dados sintéticos.
A criação de dados sintéticos de alta qualidade exige experiência, tempo e esforço significativos. O desenvolvimento de algoritmos que geram dados realistas envolve uma compreensão profunda e um ajuste cuidadoso, o que pode resultar em uma demanda de recursos intensiva. Algumas organizações podem não ter os recursos para atender a esses requisitos. Para combater isso, elas devem investir em treinamento de cientistas de dados e usar ferramentas automatizadas para ajudar a simplificar o processo de geração de dados.
Pode haver resistência ao uso de dados sintéticos entre as partes interessadas que estejam mais acostumadas a usar dados reais. Convencer os usuários da validade e da utilidade dos dados sintéticos demanda orientações e uma demonstração clara dos respectivos benefícios.
Manter a qualidade e a consistência dos dados sintéticos é essencial. A implementação de processos completos de garantia de qualidade, incluindo auditorias regulares e loops de feedback, pode ajudar as empresas a garantirem que seus dados atendam aos padrões necessários.
Os dados sintéticos podem ser usados em vários formatos, cada um atendendo a diferentes aplicações e necessidades de aprendizado de máquina e desenvolvimento de IA. Alguns exemplos são:
Isso inclui texto gerado sinteticamente usado para treinar chatbots de IA, modelos de linguagem e algoritmos de tradução. Ao criar conversas e documentos artificiais, os desenvolvedores podem aprimorar os recursos de processamento de linguagem natural (Natural Language Processing, NPL).
Esse tipo de dados sintéticos consiste em tabelas de dados sintéticos usadas para análise de dados, modelagem financeira e treinamento de aprendizado de máquina. Ele replica a estrutura e as propriedades estatísticas de conjuntos de dados tabulares do mundo real, tornando-os valiosos para a modelagem preditiva e a avaliação de riscos.
Os dados de mídia envolvem imagens sintéticas, áudio e vídeo criados por gráficos de computador e algoritmos de processamento de imagem. É amplamente utilizado em aplicações como visão computacional, reconhecimento de imagem e treinamento de sistemas autônomos.
Os dados não estruturados abrangem uma variedade de tipos de dados, como texto, imagens, vídeo e áudio, entre outros, que não seguem um formato predefinido. Dados sintéticos não estruturados são particularmente úteis para treinar modelos de IA em campos como visão computacional, reconhecimento de fala e compreensão de linguagem natural, em que o sistema seja capaz de encontrar padrões em conjuntos de dados aparentemente aleatórios.
Dados sintéticos já estão sendo empregados em todos os setores em todo o mundo, oferecendo soluções para vários desafios do treinamento de IA. A seguir estão alguns dos casos mais impactantes de uso de dados sintéticos:
O uso de dados sintéticos permite a criação de grandes conjuntos de dados para o treinamento de modelos de IA em diagnósticos médicos, pesquisa e planejamento de tratamento, ao mesmo tempo em que protege a tão necessária confidencialidade dos pacientes do mundo real.
O uso de conjuntos de dados artificiais protege a privacidade individual e permite o uso de informações orientadas por dados. Isso facilita que as organizações atendam a leis, regulamentos e políticas de privacidade de dados.
Bancos e outras organizações financeiras usam dados sintéticos para detectar fraudes, gerenciar riscos e desenvolver modelos de risco de crédito.
Os dados sintéticos são usados para simular e treinar veículos autônomos, melhorando sua segurança e eficiência, fornecendo cenários de condução diversificados, sem os riscos dos teste reais.
Modelos treinados em dados sintéticos podem simular desastres naturais e avaliar os riscos bem antes que ocorram, ajudando na preparação para desastres e informando estratégias de mitigação.
Cenários de testes realistas podem ser criados por meio de dados sintéticos, o que permite que os desenvolvedores de software testem e aprimorem aplicações sem dependerem de dados de produção reais.
Varejistas de todos os tipos utilizam dados sintéticos para otimizar a gestão de inventário, analisar o comportamento do cliente e personalizar estratégias de marketing para melhorar a segmentação. Os dados sintéticos também ajudam a melhorar os sistemas de recomendação e a prever tendências de vendas.
Esses dados ajudam na agricultura de precisão, simulando padrões de crescimento de culturas, impactos climáticos e infestações de pragas para melhorar o rendimento e a gestão de recursos. Dados sintéticos na visão computacional melhoram a capacidade da IA de identificar vários tipos de plantas e sementes para uso em modelos de crescimento e detecção de doenças agrícolas.
Os dados sintéticos são usados para simular processos de produção, otimizar operações e prever necessidades de manutenção de equipamentos, melhorando a eficiência e reduzindo o tempo de inatividade nos negócios de fabricação.
O processo de geração dos dados sintéticos varia de acordo com as ferramentas, os algoritmos e os casos de uso específicos envolvidos. Confira três técnicas comuns usadas para criar dados sintéticos:
Esse método envolve a seleção aleatória de números de uma distribuição predefinida, como distribuições gaussianas ou uniformes. Embora geralmente não capture as mesmas complexidades dos dados reais, ele fornece uma maneira básica de gerar dados com semelhantes propriedades estatísticas, o que é útil para testes de modelos iniciais e simulações simples.
Essa técnica simula interações entre agentes autônomos dentro de um sistema, como pessoas, telefones celulares ou programas de computador. Cada agente opera com base em regras predefinidas e pode interagir com outros agentes, permitindo que os pesquisadores estudem sistemas e comportamentos complexos.
Algoritmos avançados, como modelos de difusão, geram dados sintéticos por meio do aprendizado das propriedades estatísticas de conjuntos de dados do mundo real. Esses modelos treinam dados reais para entenderem padrões e relacionamentos, o que lhes permite criar dados novos e semelhantes. Os modelos de difusão são altamente eficazes na produção de conjuntos de dados sintéticos realistas e de alta qualidade, o que os torna valiosos para treinar e testar modelos de IA."
Quando se trata de dados de treinamento de IA, às vezes o "real" não é a melhor opção. Os dados sintéticos oferecem aprimoramentos de escalabilidade, qualidade de dados, custo-benefício e redução de informações tendenciosas, tudo isso enquanto espelham as propriedades (mas não os detalhes confidenciais) de pontos de dados reais. Por isso, são um ativo inestimável para empresas que buscam aproveitar recursos avançados de IA.
A ServiceNow está na vanguarda da aplicação de soluções de IA às necessidades de negócios, oferecendo um conjunto abrangente de recursos de IA por meio da poderosa Now Platform®. Incorporando a tecnologia de IA mais recente, incluindo estruturas de aprendizado de máquina, processamento de linguagem natural, análise preditiva e muito mais, a ServiceNow possibilita que as organizações adotem uma abordagem mais inteligente e autônoma para seus negócios. Com os abrangentes recursos de IA generativa da ServiceNow por meio da aplicação Now Assist, você terá tudo de que precisa para criar os dados que guiarão seus sistemas de IA. Solicite a demonstração da ServiceNow hoje mesmo para saber mais!