Los modelos inteligencia artificial emplean enormes cantidades de datos para funcionar de forma eficaz. Cuanto más diverso y completo sea el conjunto de datos, mejor podrá aprender, adaptarse y funcionar la IA. Por lo tanto, el entrenamiento de modelos de IA útiles requiere grandes cantidades de datos de alta calidad, lo que puede generar ciertos problemas. Los datos pueden ser difíciles de obtener, y los métodos tradicionales de recopilación de datos suelen requerir mucho tiempo, ser costosos e incluso crear problemas relacionados con la privacidad y los sesgos. Para hacer frente a estos y otros problemas, las empresas que trabajan con IA están recurriendo a una fuente simulada para entrenar sus sistemas inteligentes: los datos sintéticos.
Los datos sintéticos son información generada artificialmente y diseñada para imitar datos reales. Esta solución permite resolver muchos de los problemas asociados al uso de datos reales. Gracias a que usan modelos de IA generativa avanzados, los datos sintéticos ofrecen una alternativa versátil y ética que puede mejorar el desarrollo de IA sin introducir los riesgos que suelen asociarse al entrenamiento de esta tecnología.
Antes de profundizar demasiado en los detalles, es preciso aclarar brevemente en qué se diferencian los datos sintéticos de los datos reales:
- Los datos sintéticos se generan artificialmente para que coincidan con las propiedades estadísticas de los datos del mundo real. No incluyen puntos de datos reales que se correlacionen con información real.
- Los datos reales se recopilan a partir de eventos, personas e interacciones del mundo real, y sus puntos de datos contienen información real que puede ser confidencial. .
Al utilizar datos sintéticos generados correctamente, las empresas pueden obtener las ventajas de un entrenamiento completo con datos sin el riesgo de exponer datos reales o incorporar información sesgada o irrelevante en sus conjuntos de entrenamiento.
El origen de los datos simulados se remonta a la década de 1940, cuando las simulaciones de Monte Carlo fueron ampliamente utilizadas en el Proyecto Manhattan para modelar escenarios complejos y probabilísticos. Este trabajo pionero sentó las bases para el uso de datos artificiales que replicaran las condiciones del mundo real. En la década de 1990, los datos simulados se utilizaban regularmente en análisis estadísticos y gráficos por ordenador, y se aplicaban en los campos de las ingenierías aeroespacial y automotriz para probar sistemas en diversas condiciones hipotéticas.
Como la demanda de conjuntos de datos más grandes y diversos creció lo largo de la década del 2000 y en adelante, las limitaciones de los datos del mundo real se han hecho evidentes. Los investigadores recurrieron a modelos generativos, como las redes generativas adversarias y los autocodificadores variacionales, para producir datos sintéticos de alta fidelidad a partir de muestras de datos reales. En la actualidad, los datos sintéticos son una herramienta fundamental para entrenar y probar sistemas de IA de forma controlada, escalable y sin riesgos.
No es necesario emplear únicamente datos sintéticos. Las organizaciones pueden elegir la cantidad de datos sintéticos que desean incluir en sus conjuntos de entrenamiento. Esto ha dado lugar a tres categorías o tipos diferentes de entrada de datos sintéticos:
Como su nombre indica, en este tipo de conjunto de datos no se utilizan datos reales, sino que solo se emplean algoritmos para generar datos sintéticos con propiedades estadísticas reales. Los conjuntos de datos totalmente sintéticos proporcionan la mayor protección de la privacidad (ya que no contienen información personal real), eliminan los riesgos asociados a los sesgos (al permitir la creación de conjuntos de datos diseñados para ser justos y representativos) y son muy flexibles. Lamentablemente, también puede carecer de algunos matices de los datos reales, lo que podría afectar al rendimiento del modelo en aplicaciones del mundo real.
Este enfoque sustituye únicamente algunas funciones sensibles por valores sintéticos y conserva partes de los datos reales para equilibrar la privacidad y la seguridad con la retención de ciertas características valiosas de los datos reales. Implica cierto riesgo de filtración de información y puede que no elimine completamente los sesgos ocultos en los datos reales.
Los conjuntos híbridos combinan datos reales y sintéticos, y en ellos se emparejan registros aleatorios de datos reales con otros sintéticos similares. Esto ofrece una buena combinación de ventajas, asegura el entrenamiento de los modelos y mejora la privacidad. Sin embargo, requiere más tiempo de procesamiento y memoria, y gestionar la integración de datos reales y sintéticos puede ser una tarea compleja.
El concepto de "datos sintéticos" comparte ciertas similitudes con el de "datos ampliados", pero hay varias distinciones importantes:
Los datos aumentados implican la mejora de los conjuntos de datos reales existentes. Este método amplía los conjuntos de datos sin generar datos completamente nuevos (por ejemplo, por medio de rotar o iluminar los datos de las imágenes), lo que lo hace útil para mejorar el entrenamiento de la IA sin recopilar datos reales adicionales. Sin embargo, no aborda eficazmente las preocupaciones sobre la privacidad ni los sesgos de los datos, y sigue dependiendo de tener grandes cantidades de datos del mundo real para funcionar.
Por otro lado, los datos anonimizados eliminan u ocultan la información personal de conjuntos de datos reales para proteger la privacidad. Aunque esto ayuda a cumplir los requisitos normativos y reduce los riesgos relacionados con la privacidad, puede conservar los sesgos subyacentes y es posible que no elimine por completo toda la información confidencial.
A diferencia de estos otros enfoques, los datos sintéticos se generan por completo mediante algoritmos para imitar las propiedades estadísticas de los datos del mundo real sin utilizar puntos de datos reales. Este enfoque proporciona una protección de la privacidad más completa y permite crear de conjuntos de datos diversos, sin sesgos y adaptados a necesidades concretas. Por ello, los datos sintéticos son la solución más versátil y ética disponible actualmente para el entrenamiento de la IA.
Usar datos que compartan propiedades con los datos reales sin estar conectados a fuentes reales específicas proporciona muchas ventajas. Estas son algunas de las más destacadas para las empresas:
Los datos sintéticos están diseñados para que no tengan errores y sean coherentes. Como no tienen las imprecisiones y las incoherencias de los datos del mundo real, los sintéticos garantizan entradas de alta calidad y permiten disponer de modelos de IA más precisos.
Los datos sintéticos eliminan los riesgos relacionados con la información personal comprometida. Cumplen con las normativas de privacidad y reducen el riesgo de filtración de datos.
Los datos sintéticos se pueden generar en cantidades enormes muy rápidamente. Esta escalabilidad garantiza que las organizaciones puedan perfeccionar y mejorar continuamente sus modelos sin las restricciones de tener una cantidad limitada de datos.
Generar datos sintéticos suele ser más barato que recopilar y etiquetar datos reales. Esto convierte a los datos sintéticos en una opción atractiva para las organizaciones que buscan optimizar su IA dentro de unos límites de presupuestos estrictos.
Es posible crear datos sintéticos para abordar y mitigar los sesgos inherentes a los datos del mundo real, lo que ayuda a desarrollar sistemas de IA más justos que funcionen de forma más equitativa en distintas situaciones y con diferentes grupos demográficos.
Los datos sintéticos pueden adaptarse a necesidades específicas, lo que garantiza que sean relevantes y precisos para la aplicación prevista. La personalización permite crear datos que se ajustan con precisión a los requisitos de determinados modelos de IA.
Los usuarios pueden dictar los parámetros con los que se generan los datos, lo que garantiza que el conjunto de datos cumpla requisitos específicos. De ese modo, las empresas pueden crear datos que se ajusten con precisión a las necesidades de su modelo de IA, lo que permite disponer de soluciones más eficaces y específicas.
Los datos sintéticos están etiquetados de forma inherente, lo que reduce la necesidad de anotarlos manualmente. La automatización del etiquetado acelera el proceso de preparación de los datos y reduce los costes de mano de obra.
Los datos sintéticos se pueden producir mucho más rápido que los métodos tradicionales de recopilación de datos. Al acelerar el desarrollo y la implementación de modelos de IA, las empresas pueden poner a su servicio sus soluciones de IA totalmente entrenadas más rápido que de ninguna otra forma.
Además de las ventajas mencionadas anteriormente, los datos sintéticos ofrecen otros beneficios concretos para los modelos de aprendizaje automático (ML). El aprendizaje automático depende incluso más que otros enfoque de la IA de disponer de enormes cantidades de datos de entrenamiento, datos que se pueden suministrar más rápido y a un coste menor si se generan de forma sintética.
Otro ámbito donde los datos sintéticos tienen un peso especial para el aprendizaje automático es el del desarrollo de repositorios de datos para modelos de ML preentrenados por medio del aprendizaje por transferencia. Este proceso implica reutilizar los datos de entrenamiento para otras tareas relacionadas. Los nuevos modelos de ML pueden empezar con ventaja en lugar de partir de cero al entrenarlos previamente mediante aprendizaje por transferencia y luego incorporar datos sintéticos adicionales para ayudar a ajustar sus procesos.
Aunque los datos sintéticos ofrecen numerosas ventajas, también presentan varios desafíos. Para garantizar el mejor resultado posible con los datos sintéticos, ten en cuenta las siguientes dificultades y cómo superarlas:
Puede resultar difícil garantizar que los datos sintéticos reflejen con precisión las condiciones del mundo real. Si los datos generados no son fiables, el modelo puede tener un rendimiento insuficiente y generar predicciones incorrectas. Las organizaciones deben asegurarse de utilizar modelos generativos avanzados y validar continuamente los datos sintéticos con conjuntos de datos del mundo real para mejorar su fiabilidad.
Los datos sintéticos son una representación de cómo deberían ser los datos según la organización o el modelo generativo, así que podrían no capturar eventos inusuales o valores atípicos de forma eficaz. Lamentablemente, estos valores atípicos pueden ser cruciales para entrenar modelos eficaces, especialmente, en ámbitos como la detección de fraudes. Implementar técnicas para modelar e incluir valores atípicos específicamente puede ayudar a asegurar que queden representados en los conjuntos de datos sintéticos.
La creación de datos sintéticos de alta calidad requiere una experiencia, un tiempo y un esfuerzo considerables. Desarrollar algoritmos que generen datos realistas implica una comprensión profunda y un ajuste cuidadoso, lo que puede requerir muchos recursos. Es posible que algunas organizaciones no dispongan de los recursos necesarios para satisfacer estos requisitos. Para abordar esta situación, deben invertir en formación para científicos de datos y utilizar herramientas automatizadas que ayuden a agilizar el proceso de generación de datos.
Puede haber resistencia al uso de datos sintéticos entre los usuarios que estén más familiarizados con los datos reales. Para convencer a los usuarios de la validez y la utilidad de los datos sintéticos, es necesario formarlos y demostrar claramente los beneficios de este recurso.
Es esencial preservar la calidad y la coherencia de los datos sintéticos. Implementar procesos exhaustivos para garantizar la calidad, como auditorías periódicas y ciclos de sugerencias, puede ayudar a las empresas a garantizar que sus datos cumplan los estándares requeridos.
Los datos sintéticos pueden usarse en varios formatos, cada uno de los cuales es útil para distintas aplicaciones y necesidades del aprendizaje automático y el desarrollo de IA. Algunos ejemplos son:
Incluyen el texto generado sintéticamente que se utiliza para entrenar bots de chat de IA, modelos de lenguaje y algoritmos de traducción. Mediante la creación de conversaciones y documentos artificiales, los desarrolladores pueden mejorar las capacidades de procesamiento del lenguaje natural (NLP).
Este formato consiste en tablas de datos sintéticos que se usan para el análisis de datos, el modelado financiero y el entrenamiento del aprendizaje automático. Replica la estructura y las propiedades estadísticas de los conjuntos de datos tabulares del mundo real, lo que los hace valiosos para el modelado predictivo y la evaluación de riesgos.
Los datos multimedia incluyen imágenes sintéticas, audio y vídeo creados mediante gráficos informáticos y algoritmos de procesamiento de imágenes. Se utilizan ampliamente en aplicaciones como la visión informática, el reconocimiento de imágenes y el entrenamiento de sistemas autónomos.
Los datos no estructurados abarcan distintos tipos de datos, como texto, imágenes, vídeo y audio, que se ajustan a un formato predefinido. Los datos sintéticos no estructurados son especialmente útiles para entrenar modelos de IA en campos como la visión informática, el reconocimiento del habla y la comprensión del lenguaje natural, donde se espera que el sistema sea capaz de encontrar patrones en conjuntos de datos aparentemente aleatorios.
Los datos sintéticos se utilizan ya en diversos sectores de todo el mundo y ofrecen soluciones para distintos problemas relacionados con el entrenamiento de IA. Estos son algunos de los casos de uso más relevantes de los datos sintéticos:
El uso de datos sintéticos permite crear grandes conjuntos de datos para entrenar modelos de IA en el diagnóstico médico, la investigación y la planificación de tratamientos, y protege al mismo tiempo algo tan necesario como la confidencialidad de los pacientes del mundo real.
El uso de conjuntos de datos artificiales protege la privacidad individual y, al mismo tiempo, permite obtener información basada en datos. Esto ayuda a las organizaciones a cumplir las leyes, normativas y políticas de privacidad de datos.
Los bancos y otras organizaciones financieras utilizan datos sintéticos para detectar fraudes, gestionar riesgos y desarrollar modelos de riesgo crediticio.
Los datos sintéticos se utilizan para simular y entrenar vehículos autónomos, lo que mejora su seguridad y eficiencia al proporcionar diversas situaciones de conducción sin los riesgos que implican las pruebas reales.
Los modelos entrenados con datos sintéticos pueden simular desastres naturales y evaluar los riesgos mucho antes de que ocurran, lo que ayuda a prepararse y a trazar estrategias de mitigación fundamentadas.
Es posible crear situaciones de prueba realistas utilizando datos sintéticos, lo que permite a los desarrolladores de software probar y mejorar las aplicaciones sin depender de datos de producción reales.
Los minoristas de todo tipo utilizan datos sintéticos para optimizar la gestión de su inventario, analizar el comportamiento de los clientes y personalizar las estrategias de marketing para mejorar la segmentación. Los datos sintéticos también ayudan a mejorar los sistemas de recomendaciones y a predecir las tendencias de venta.
Estos datos son útiles en el ámbito de la agricultura de precisión gracias a la simulación de patrones de crecimiento de cultivos, la influencia del clima y las plagas para mejorar el rendimiento y la gestión de recursos. El uso de datos sintéticos en la visión informática mejora la capacidad de la IA para identificar distintos tipos de plantas y semillas para usarlas en modelos de crecimiento y detección de enfermedades en los cultivos.
Los datos sintéticos se utilizan para simular los procesos de producción, optimizar las operaciones y predecir las necesidades de mantenimiento de los equipos, lo que mejora la eficiencia y reduce el tiempo de inactividad en los negocios del sector de la fabricación.
El proceso para generar datos sintéticos varía en función de las herramientas, los algoritmos y los casos de uso específicos implicados. A continuación se muestran tres técnicas habituales para crear datos sintéticos:
Este método consiste en seleccionar aleatoriamente números de una distribución predefinida, como distribuciones gaussianas o uniformes. Aunque no suele captar las mismas complejidades que tienen los datos del mundo real, proporciona una forma básica de generar datos con propiedades estadísticas similares, lo que resulta útil para las pruebas iniciales de los modelos y las simulaciones simples.
Esta técnica simula interacciones entre agentes autónomos dentro de un sistema, como personas, teléfonos móviles o programas informáticos. Cada agente funciona según reglas predefinidas y puede interactuar con otros, lo que permite a los investigadores estudiar sistemas y comportamientos complejos.
Los algoritmos avanzados, como los modelos de difusión, generan datos sintéticos al aprender las propiedades estadísticas de los conjuntos de datos del mundo real. Estos modelos se entrenan con datos reales para comprender patrones y relaciones, lo que les permite crear datos nuevos y similares. Los modelos de difusión son muy eficaces a la hora de producir conjuntos de datos sintéticos realistas y de alta calidad, lo que los hace valiosos para entrenar y probar modelos de IA.
Cuando se trata de datos de entrenamiento de IA, los datos reales no siempre son la mejor opción. Los datos sintéticos ofrecen mayor escalabilidad, calidad, reducción de sesgos y rentabilidad. Además, reflejan las propiedades de los puntos de datos reales sin mostrar la información confidencial. Por ello, son un activo de un valor incalculable para las empresas que buscan emplear capacidades de IA avanzadas.
ServiceNow está a la vanguardia en la aplicación de soluciones de IA a las necesidades empresariales, y ofrece un conjunto completo de capacidades de IA a través de la potente Now Platform®. ServiceNow permite a las organizaciones adoptar un enfoque empresarial más inteligente y autónomo, ya que incorpora lo último en tecnología de IA, como los marcos de trabajo de aprendizaje automático, el procesamiento del lenguaje natural y el análisis predictivo, entre otros recursos. Además, gracias a las completas funciones de IA generativa de ServiceNow, disponibles a través de la aplicación Now Assist, tendrás todo lo necesario para crear los datos que guíen tus sistemas de IA. Disfruta de una demostración de ServiceNow hoy mismo para obtener más información.