Cada modelo de inteligencia artificial se basa en grandes cantidades de datos para funcionar de manera eficaz: cuanto más diverso y completo sea el conjunto de datos, mejor podrá aprender, adaptarse y desempeñarse la IA. Como tal, la formación de modelos de IA utilizables exige cantidades sustanciales de datos de alta calidad. Esto puede crear posibles preocupaciones. Los datos pueden ser difíciles de obtener, y los métodos tradicionales de recopilación de datos a menudo consumen mucho tiempo, son costosos e incluso pueden crear problemas relacionados con la privacidad y el sesgo. Para contrarrestar estos y otros problemas, las empresas que trabajan con IA están recurriendo a una fuente simulada desde la que entrenar sus sistemas inteligentes: los datos sintéticos.
Los datos sintéticos son información generada artificialmente diseñada para imitar datos del mundo real. Ofrecen una solución a muchos de los desafíos asociados con el uso de datos reales. Al aprovechar los modelos de IA generativa avanzada (GenAI), los datos sintéticos proporcionan una alternativa versátil y ética que puede mejorar el desarrollo de IA sin introducir los riesgos comúnmente asociados con la formación de IA.
Antes de profundizar demasiado en los detalles, vale la pena especificar brevemente cómo los datos sintéticos son diferentes de los datos reales:
- Los datos sintéticos se generan artificialmente para que coincidan con las propiedades estadísticas de los datos del mundo real. No incluyen puntos de datos reales que se correlacionen con la información del mundo real.
- Los datos reales se recopilan a partir de eventos, individuos e interacciones del mundo real; sus puntos de datos contienen información real que puede ser de naturaleza confidencial. .
Mediante el uso de datos sintéticos generados correctamente, las empresas pueden obtener las ventajas de una formación integral de datos sin el riesgo de exponer datos reales o incorporar información sesgada o irrelevante en sus conjuntos de datos de formación.
Los datos simulados tienen raíces que se remontan a la década de los cuarenta, cuando las simulaciones de Monte Carlo se utilizaron ampliamente en el Proyecto Manhattan para modelar escenarios probabilísticos complejos. Este trabajo pionero preparó el escenario para el uso de datos artificiales para replicar las condiciones del mundo real. En la década de los noventa, los datos simulados se utilizaban regularmente en análisis estadísticos y gráficos por computadora, con aplicaciones en ingeniería aeroespacial y automotriz para probar sistemas en diversas condiciones hipotéticas.
A medida que la demanda de conjuntos de datos más grandes y diversos creció a lo largo de la primera década del siglo XXI en adelante, las limitaciones de los datos del mundo real se hicieron evidentes. Los investigadores recurrieron a modelos generativos, como las redes generativas adversarias (GAN) y los autocodificadores variacionales (VAE), para producir datos sintéticos de alta fidelidad mediante el aprendizaje a partir de muestras de datos reales. Hoy en día, los datos sintéticos son una herramienta fundamental para formar y probar sistemas de IA de una manera controlada, escalable y sin riesgos.
Los datos sintéticos no son una solución de todo o nada; las organizaciones pueden elegir la cantidad de datos sintéticos que les gustaría incluir en sus conjuntos de formación. Esto ha dado lugar a tres categorías o tipos diferentes de introducción de datos sintéticos:
Como su nombre indica, este tipo de conjunto de datos no utiliza datos reales y depende completamente de algoritmos para generar datos sintéticos con propiedades estadísticas del mundo real. Los datos totalmente sintéticos proporcionan la protección más sólida de la privacidad (ya que no contienen información personal real), eliminan los riesgos asociados con el sesgo (al permitir la creación de conjuntos de datos diseñados para ser justos y representativos) y son altamente flexibles. Desafortunadamente, también pueden carecer de algunos matices de datos reales, lo que podría afectar el rendimiento del modelo en aplicaciones del mundo real.
Este enfoque reemplaza solo algunas características confidenciales por valores sintéticos, al mismo tiempo que retiene partes de los datos reales, lo que equilibra la privacidad y la seguridad con la retención de características valiosas de los datos reales. Este enfoque aún conlleva cierto riesgo de fuga de información y puede que no elimine por completo los sesgos ocultos en los datos reales.
El enfoque híbrido combina datos reales y sintéticos al fusionar registros de datos reales aleatorios con otros sintéticos similares. Esto proporciona una buena combinación de beneficios, lo que garantiza una formación integral de modelos y, al mismo tiempo, mejora la privacidad. También requiere más tiempo de procesamiento y memoria, y gestionar la integración de datos reales y sintéticos puede ser una tarea compleja.
Los datos sintéticos comparten ciertas similitudes con el concepto de datos aumentados, pero hay varias distinciones importantes:
Los datos aumentados implican mejorar los conjuntos de datos existentes del mundo real. Este método amplía los conjuntos de datos sin generar datos completamente nuevos (como rotar o aclarar datos de imágenes), lo que lo hace útil para mejorar la formación de IA sin recopilar datos reales adicionales. Sin embargo, no aborda las preocupaciones de privacidad ni los sesgos de datos de manera eficaz, y aún depende de cantidades sustanciales de datos del mundo real para funcionar.
Por otro lado, los datos anonimizados eliminan o confunden la información personal de conjuntos de datos reales para proteger la privacidad. Si bien esto ayuda a cumplir con los requisitos regulatorios y reduce los riesgos de privacidad, de todos modos puede retener los sesgos subyacentes y es posible que no elimine completamente toda la información confidencial.
En contraste con estos otros enfoques, los datos sintéticos son generados por completo por algoritmos para imitar las propiedades estadísticas de los datos del mundo real sin usar puntos de datos reales. Este enfoque proporciona una protección de la privacidad más completa y permite la creación de conjuntos de datos diversos y no sesgados, adaptados a necesidades específicas. Esto hace que los datos sintéticos sean la solución más versátil y ética para la formación en IA disponible actualmente.
Trabajar con datos que coincidan con las propiedades de los datos reales sin conectarse a ninguna fuente real específica proporciona muchas ventajas. Entre sus beneficios empresariales más destacados se encuentran los siguientes:
Los datos sintéticos están diseñados para estar libres de errores y ser coherentes. Al eliminar las imprecisiones e inconsistencias que se encuentran en los datos del mundo real, los datos sintéticos garantizan entradas de alta calidad, lo que conduce a modelos de IA más precisos.
Los datos sintéticos eliminan los riesgos relacionados con la información personal comprometida. Cumplen con las regulaciones de privacidad y reducen el riesgo de filtraciones de datos.
Los datos sintéticos se pueden generar en cantidades masivas de manera muy rápida. Esta escalabilidad garantiza que las organizaciones puedan ajustar y mejorar continuamente sus modelos sin las restricciones de datos limitados.
Generar datos sintéticos suele ser más barato que recopilar y etiquetar datos reales. Esto los convierte en una opción atractiva para las organizaciones que buscan optimizar su IA dentro de los límites de presupuestos estrictos.
Se pueden crear datos sintéticos para abordar y mitigar los sesgos inherentes a los datos del mundo real. Esto ayuda a desarrollar sistemas de IA más justos que funcionen de manera más equitativa en diferentes escenarios y grupos demográficos.
Los datos sintéticos se pueden adaptar a necesidades específicas, lo que garantiza que sean relevantes y precisos para la aplicación prevista. La personalización permite la creación de datos que coinciden con precisión con los requisitos de modelos de IA particulares.
Los usuarios pueden dictar los parámetros de generación de datos, lo que garantiza que el conjunto de datos cumpla con requisitos específicos. Esto hace posible que las empresas creen datos que se adapten con precisión a las necesidades de su modelo de IA, lo que lleva a soluciones más eficaces y específicas.
Los datos sintéticos incluyen el etiquetado inherente, lo que reduce la necesidad de anotaciones manuales. La automatización del etiquetado acelera el proceso de preparación de datos y reduce los costos de mano de obra.
Los datos sintéticos se pueden producir mucho más rápido que los métodos tradicionales de recopilación de datos. Al acelerar el desarrollo y la implementación de modelos de IA, las empresas pueden poner sus soluciones de IA completamente formadas a trabajar más rápido de lo que sería posible de otra manera.
Además de los beneficios enumerados anteriormente, los datos sintéticos ofrecen ventajas específicas para los modelos de aprendizaje automático (ML). Incluso más que muchos otros enfoques de la IA, el aprendizaje automático depende en gran medida de cantidades masivas de datos de formación, datos que se pueden suministrar más rápido y a menor costo cuando se generan de forma sintética.
Otra área en la que los datos sintéticos tienen una importancia especial para el aprendizaje automático es en el desarrollo de repositorios de datos para modelos de ML previos a la formación, a través del aprendizaje por transferencia. Esto implica reutilizar los datos de formación para otras tareas relacionadas. Los nuevos modelos de ML pueden obtener una ventaja inicial en lugar de comenzar desde cero, gracias a la formación previa mediante aprendizaje por transferencia, y luego se pueden ajustar con datos sintéticos adicionales para perfeccionar sus procesos
Si bien los datos sintéticos ofrecen numerosos beneficios, también presentan varios desafíos. Para garantizar el mejor resultado de los datos sintéticos, ten en cuenta los siguientes obstáculos y cómo eliminarlos:
Puede resultar difícil garantizar que los datos sintéticos reflejen con precisión las condiciones del mundo real. Si los datos generados no son confiables, pueden generar un rendimiento deficiente del modelo y predicciones inexactas. Las organizaciones deben asegurarse de utilizar modelos generativos avanzados y validar continuamente los datos sintéticos contra conjuntos de datos del mundo real para mejorar su confiabilidad.
Los datos sintéticos son una representación de lo que la organización o el modelo generativo cree que deben ser los datos; es posible que no capturen eventos raros o valores atípicos de manera efectiva. Desafortunadamente, estos valores atípicos pueden ser cruciales para formar modelos eficaces, especialmente en campos como la detección de fraude. La implementación de técnicas para modelar e incluir específicamente los valores atípicos puede ayudar a garantizar que estén representados en los conjuntos de datos sintéticos.
La creación de datos sintéticos de alta calidad exige una experiencia, tiempo y esfuerzo significativos. El desarrollo de algoritmos que generen datos realistas implica una comprensión profunda y un ajuste cuidadoso, lo que puede implicar el uso intensivo de recursos. Es posible que algunas organizaciones no tengan los recursos necesarios para cumplir con estos requisitos. Para contrarrestar esto, deben invertir en formación para científicos de datos y utilizar herramientas automatizadas para ayudar a optimizar el proceso de generación de datos.
Puede haber resistencia al uso de datos sintéticos entre los interesados que están más familiarizados con los datos reales. Convencer a los usuarios de la validez y utilidad de los datos sintéticos requiere educación y una demostración clara de sus beneficios.
Es esencial mantener la calidad y la coherencia de los datos sintéticos. La implementación de procesos exhaustivos de garantía de calidad, incluidas auditorías periódicas y bucles de comentarios, puede ayudar a las empresas a garantizar que sus datos cumplan con los estándares requeridos.
Los datos sintéticos pueden utilizarse en varios formatos, cada uno orientado a distintas aplicaciones y necesidades en el desarrollo de la IA y el aprendizaje automático. por ejemplo:
Esto incluye texto generado sintéticamente utilizado para formar bots de chat de IA, modelos de lenguaje y algoritmos de traducción. Mediante la creación de conversaciones y documentos artificiales, los desarrolladores pueden mejorar las competencias de procesamiento de lenguaje natural (PNL).
Este tipo de datos sintéticos consiste en tablas de datos sintéticos utilizadas para el análisis de datos, el modelado financiero y la formación en aprendizaje automático. Replican la estructura y las propiedades estadísticas de los conjuntos de datos tabulares del mundo real, lo que los hace valiosos para el modelado predictivo y la evaluación de riesgos.
Los datos de medios implican imágenes sintéticas, audio y video creados con gráficos por computadora y algoritmos de procesamiento de imágenes. Se utilizan ampliamente en aplicaciones como visión por computadora, reconocimiento de imágenes y formación en sistemas autónomos.
Los datos no estructurados abarcan una variedad de tipos de datos, incluido texto, imágenes, video y audio que no siguen un formato predefinido. Los datos sintéticos no estructurados son particularmente útiles para formar modelos de IA en campos como visión por computadora, reconocimiento de voz y a comprensión del lenguaje natural, donde se espera que el sistema sea capaz de encontrar patrones en conjuntos de datos aparentemente aleatorios.
Los datos sintéticos ya se emplean en todas las industrias de todo el mundo, lo que ofrece soluciones a varios desafíos de formación en IA. Los siguientes son algunos de los casos de uso de mayor impacto de los datos sintéticos:
El uso de datos sintéticos permite la creación de grandes conjuntos de datos para formar modelos de IA en diagnósticos médicos, investigación y planificación de tratamientos, al mismo tiempo que protege la confidencialidad tan necesaria de los pacientes del mundo real.
El uso de conjuntos de datos artificiales protege la privacidad individual, al mismo tiempo que permite conocimientos basados en datos. Esto facilita que las organizaciones cumplan con las leyes, regulaciones y políticas de privacidad de los datos.
Los bancos y otras organizaciones financieras utilizan datos sintéticos para la detección de fraude, la gestión de riesgos y el desarrollo de modelos de riesgo crediticio.
Los datos sintéticos se utilizan para simular y formar vehículos autónomos, lo que mejora su seguridad y eficiencia al proporcionar diversos escenarios de conducción sin riesgos de pruebas reales.
Los modelos formados a partir de datos sintéticos pueden simular desastres naturales y evaluar riesgos mucho antes de que ocurran, lo que ayuda en la preparación para desastres e informa las estrategias de mitigación.
Se pueden crear escenarios de prueba realistas con datos sintéticos, lo que permite a los desarrolladores de software probar y mejorar las aplicaciones sin depender de datos de producción reales.
Los minoristas de todo tipo utilizan datos sintéticos para optimizar la gestión de inventario, analizar el comportamiento de los clientes y personalizar las estrategias de marketing para mejorar la orientación. Los datos sintéticos también ayudan a mejorar los sistemas de recomendación y a predecir las tendencias de ventas.
Ayudan en la agricultura de precisión simulando patrones de crecimiento de cultivos, impactos climáticos e infestaciones de plagas para mejorar el rendimiento y la gestión de recursos. Los datos sintéticos en la visión por computadora mejoran la capacidad de la IA para identificar varios tipos de plantas y semillas para su uso en modelos de crecimiento y detección de enfermedades de cultivos.
Los datos sintéticos se utilizan para simular los procesos de producción, optimizar las operaciones y predecir las necesidades de mantenimiento de los equipos, lo que mejora la eficiencia y reduce el tiempo de inactividad en las fábricas.
El proceso de generación de datos sintéticos varía según las herramientas, los algoritmos y los casos de uso específicos involucrados. Estas son tres técnicas comunes utilizadas para crear datos sintéticos:
Este método implica seleccionar al azar números de una distribución predefinida, como distribuciones gaussianas o uniformes. Si bien generalmente no captura las mismas complejidades de los datos del mundo real, proporciona una forma básica de generar datos con propiedades estadísticas similares, útiles para pruebas iniciales de modelos y simulaciones simples.
Esta técnica simula las interacciones entre agentes autónomos dentro de un sistema, como personas, teléfonos celulares o programas informáticos. Cada agente opera en función de reglas predefinidas y puede interactuar con otros agentes, lo que permite a los investigadores estudiar sistemas y comportamientos complejos.
Los algoritmos avanzados, como los modelos de difusión, generan datos sintéticos mediante el aprendizaje de las propiedades estadísticas de los conjuntos de datos del mundo real. Estos modelos se forman en función de datos reales para comprender patrones y relaciones, lo que les permite crear datos nuevos y similares. Los modelos de difusión son altamente eficaces para producir conjuntos de datos sintéticos realistas y de alta calidad, lo que los hace valiosos para la formación y las pruebas de modelos de IA.
Cuando se trata de datos de formación de IA, a veces “reales” no es la mejor opción. Los datos sintéticos ofrecen escalabilidad mejorada, calidad de los datos, reducción de sesgos y rentabilidad, todo mientras reproducen las propiedades de (pero no los detalles confidenciales) de los puntos de datos reales. Esto los convierte en un activo invaluable para las empresas que buscan aprovechar las competencias avanzadas de IA.
ServiceNow está a la vanguardia de la aplicación de soluciones de IA a las necesidades empresariales, al ofrecer un conjunto completo de competencias de IA a través de la potente Now Platform®. Al incorporar lo último en tecnología de IA, incluidos marcos de trabajo de aprendizaje automático, procesamiento del lenguaje natural, análisis predictivo y más, ServiceNow permite a las organizaciones adoptar un enfoque empresarial más inteligente y autónomo. Además, con las competencias integrales de IA generativa de ServiceNow a través de la aplicación Now Assist, tendrás todo lo que necesitas para crear los datos que guiarán tus sistemas de IA. Solicita una demostración de ServiceNow hoy para obtener más información.