¿Qué son los datos sintéticos? Los datos sintéticos son información generada por computadora diseñada para aumentar o reemplazar los datos reales para mejorar los modelos de IA, proteger los datos confidenciales y reducir el sesgo. Creados por IA generativa formada a partir de muestras del mundo real, reflejan las propiedades de los datos originales sin contener información personal. Demostración de IA
Cosas que debes saber sobre los datos sintéticos
¿Qué son los datos sintéticos frente a los datos reales? ¿Cuál es el origen de los datos sintéticos? ¿Cuáles son los diferentes tipos de datos sintéticos? ¿Qué son los datos aumentados y anonimizados frente a los datos sintéticos? ¿Cuáles son los beneficios de los datos sintéticos? Ventajas de los datos sintéticos en el aprendizaje automático ¿Cuáles son algunos de los desafíos del uso de datos sintéticos? ¿Cuáles son ejemplos de datos sintéticos? ¿Cuáles son los casos importantes de uso de datos sintéticos? ¿Cómo se generan los datos sintéticos? Optimiza los datos sintéticos con ServiceNow

Cada modelo de inteligencia artificial se basa en grandes cantidades de datos para funcionar de manera eficaz: cuanto más diverso y completo sea el conjunto de datos, mejor podrá aprender, adaptarse y desempeñarse la IA. Como tal, la formación de modelos de IA utilizables exige cantidades sustanciales de datos de alta calidad. Esto puede crear posibles preocupaciones. Los datos pueden ser difíciles de obtener, y los métodos tradicionales de recopilación de datos a menudo consumen mucho tiempo, son costosos e incluso pueden crear problemas relacionados con la privacidad y el sesgo. Para contrarrestar estos y otros problemas, las empresas que trabajan con IA están recurriendo a una fuente simulada desde la que entrenar sus sistemas inteligentes: los datos sintéticos.

Los datos sintéticos son información generada artificialmente diseñada para imitar datos del mundo real. Ofrecen una solución a muchos de los desafíos asociados con el uso de datos reales. Al aprovechar los modelos de IA generativa avanzada (GenAI), los datos sintéticos proporcionan una alternativa versátil y ética que puede mejorar el desarrollo de IA sin introducir los riesgos comúnmente asociados con la formación de IA.

Ver todo Contraer todo ¿Qué son los datos sintéticos frente a los datos reales?

Antes de profundizar demasiado en los detalles, vale la pena especificar brevemente cómo los datos sintéticos son diferentes de los datos reales:

  • Los datos sintéticos se generan artificialmente para que coincidan con las propiedades estadísticas de los datos del mundo real. No incluyen puntos de datos reales que se correlacionen con la información del mundo real.
  • Los datos reales se recopilan a partir de eventos, individuos e interacciones del mundo real; sus puntos de datos contienen información real que puede ser de naturaleza confidencial. .

Mediante el uso de datos sintéticos generados correctamente, las empresas pueden obtener las ventajas de una formación integral de datos sin el riesgo de exponer datos reales o incorporar información sesgada o irrelevante en sus conjuntos de datos de formación.

Presentación de Now Intelligence Descubre cómo ServiceNow saca la IA y los análisis de los laboratorios para transformar la forma en que las empresas trabajan y acelerar la transformación digital. Obtener eBook
¿Cuál es el origen de los datos sintéticos?

Los datos simulados tienen raíces que se remontan a la década de los cuarenta, cuando las simulaciones de Monte Carlo se utilizaron ampliamente en el Proyecto Manhattan para modelar escenarios probabilísticos complejos. Este trabajo pionero preparó el escenario para el uso de datos artificiales para replicar las condiciones del mundo real. En la década de los noventa, los datos simulados se utilizaban regularmente en análisis estadísticos y gráficos por computadora, con aplicaciones en ingeniería aeroespacial y automotriz para probar sistemas en diversas condiciones hipotéticas.

A medida que la demanda de conjuntos de datos más grandes y diversos creció a lo largo de la primera década del siglo XXI en adelante, las limitaciones de los datos del mundo real se hicieron evidentes. Los investigadores recurrieron a modelos generativos, como las redes generativas adversarias (GAN) y los autocodificadores variacionales (VAE), para producir datos sintéticos de alta fidelidad mediante el aprendizaje a partir de muestras de datos reales. Hoy en día, los datos sintéticos son una herramienta fundamental para formar y probar sistemas de IA de una manera controlada, escalable y sin riesgos.

¿Cuáles son los diferentes tipos de datos sintéticos?

Los datos sintéticos no son una solución de todo o nada; las organizaciones pueden elegir la cantidad de datos sintéticos que les gustaría incluir en sus conjuntos de formación. Esto ha dado lugar a tres categorías o tipos diferentes de introducción de datos sintéticos:

 

Totalmente sintéticos

Como su nombre indica, este tipo de conjunto de datos no utiliza datos reales y depende completamente de algoritmos para generar datos sintéticos con propiedades estadísticas del mundo real. Los datos totalmente sintéticos proporcionan la protección más sólida de la privacidad (ya que no contienen información personal real), eliminan los riesgos asociados con el sesgo (al permitir la creación de conjuntos de datos diseñados para ser justos y representativos) y son altamente flexibles. Desafortunadamente, también pueden carecer de algunos matices de datos reales, lo que podría afectar el rendimiento del modelo en aplicaciones del mundo real.

Parcialmente sintéticos

Este enfoque reemplaza solo algunas características confidenciales por valores sintéticos, al mismo tiempo que retiene partes de los datos reales, lo que equilibra la privacidad y la seguridad con la retención de características valiosas de los datos reales. Este enfoque aún conlleva cierto riesgo de fuga de información y puede que no elimine por completo los sesgos ocultos en los datos reales.

Híbridos reales/sintéticos

El enfoque híbrido combina datos reales y sintéticos al fusionar registros de datos reales aleatorios con otros sintéticos similares. Esto proporciona una buena combinación de beneficios, lo que garantiza una formación integral de modelos y, al mismo tiempo, mejora la privacidad. También requiere más tiempo de procesamiento y memoria, y gestionar la integración de datos reales y sintéticos puede ser una tarea compleja.

¿Qué son los datos aumentados y anonimizados frente a los datos sintéticos?

Los datos sintéticos comparten ciertas similitudes con el concepto de datos aumentados, pero hay varias distinciones importantes:

Los datos aumentados implican mejorar los conjuntos de datos existentes del mundo real. Este método amplía los conjuntos de datos sin generar datos completamente nuevos (como rotar o aclarar datos de imágenes), lo que lo hace útil para mejorar la formación de IA sin recopilar datos reales adicionales. Sin embargo, no aborda las preocupaciones de privacidad ni los sesgos de datos de manera eficaz, y aún depende de cantidades sustanciales de datos del mundo real para funcionar.

Por otro lado, los datos anonimizados eliminan o confunden la información personal de conjuntos de datos reales para proteger la privacidad. Si bien esto ayuda a cumplir con los requisitos regulatorios y reduce los riesgos de privacidad, de todos modos puede retener los sesgos subyacentes y es posible que no elimine completamente toda la información confidencial.

En contraste con estos otros enfoques, los datos sintéticos son generados por completo por algoritmos para imitar las propiedades estadísticas de los datos del mundo real sin usar puntos de datos reales. Este enfoque proporciona una protección de la privacidad más completa y permite la creación de conjuntos de datos diversos y no sesgados, adaptados a necesidades específicas. Esto hace que los datos sintéticos sean la solución más versátil y ética para la formación en IA disponible actualmente.

¿Cuáles son los beneficios de los datos sintéticos?

Trabajar con datos que coincidan con las propiedades de los datos reales sin conectarse a ninguna fuente real específica proporciona muchas ventajas. Entre sus beneficios empresariales más destacados se encuentran los siguientes:

Calidad de los datos

Los datos sintéticos están diseñados para estar libres de errores y ser coherentes. Al eliminar las imprecisiones e inconsistencias que se encuentran en los datos del mundo real, los datos sintéticos garantizan entradas de alta calidad, lo que conduce a modelos de IA más precisos.

 

Privacidad de los datos

Los datos sintéticos eliminan los riesgos relacionados con la información personal comprometida. Cumplen con las regulaciones de privacidad y reducen el riesgo de filtraciones de datos.

 

Escalabilidad

Los datos sintéticos se pueden generar en cantidades masivas de manera muy rápida. Esta escalabilidad garantiza que las organizaciones puedan ajustar y mejorar continuamente sus modelos sin las restricciones de datos limitados.

 

Rentabilidad

Generar datos sintéticos suele ser más barato que recopilar y etiquetar datos reales. Esto los convierte en una opción atractiva para las organizaciones que buscan optimizar su IA dentro de los límites de presupuestos estrictos.

 

Reducción del sesgo

Se pueden crear datos sintéticos para abordar y mitigar los sesgos inherentes a los datos del mundo real. Esto ayuda a desarrollar sistemas de IA más justos que funcionen de manera más equitativa en diferentes escenarios y grupos demográficos.

 

Datos personalizables

Los datos sintéticos se pueden adaptar a necesidades específicas, lo que garantiza que sean relevantes y precisos para la aplicación prevista. La personalización permite la creación de datos que coinciden con precisión con los requisitos de modelos de IA particulares.

 

Control total del usuario

Los usuarios pueden dictar los parámetros de generación de datos, lo que garantiza que el conjunto de datos cumpla con requisitos específicos. Esto hace posible que las empresas creen datos que se adapten con precisión a las necesidades de su modelo de IA, lo que lleva a soluciones más eficaces y específicas.

 

Etiquetado de datos

Los datos sintéticos incluyen el etiquetado inherente, lo que reduce la necesidad de anotaciones manuales. La automatización del etiquetado acelera el proceso de preparación de datos y reduce los costos de mano de obra.

 

Producción más rápida

Los datos sintéticos se pueden producir mucho más rápido que los métodos tradicionales de recopilación de datos. Al acelerar el desarrollo y la implementación de modelos de IA, las empresas pueden poner sus soluciones de IA completamente formadas a trabajar más rápido de lo que sería posible de otra manera.

 

Ventajas de los datos sintéticos en el aprendizaje automático

Además de los beneficios enumerados anteriormente, los datos sintéticos ofrecen ventajas específicas para los modelos de aprendizaje automático (ML). Incluso más que muchos otros enfoques de la IA, el aprendizaje automático depende en gran medida de cantidades masivas de datos de formación, datos que se pueden suministrar más rápido y a menor costo cuando se generan de forma sintética.

Otra área en la que los datos sintéticos tienen una importancia especial para el aprendizaje automático es en el desarrollo de repositorios de datos para modelos de ML previos a la formación, a través del aprendizaje por transferencia. Esto implica reutilizar los datos de formación para otras tareas relacionadas. Los nuevos modelos de ML pueden obtener una ventaja inicial en lugar de comenzar desde cero, gracias a la formación previa mediante aprendizaje por transferencia, y luego se pueden ajustar con datos sintéticos adicionales para perfeccionar sus procesos

¿Cuáles son algunos de los desafíos del uso de datos sintéticos?

Si bien los datos sintéticos ofrecen numerosos beneficios, también presentan varios desafíos. Para garantizar el mejor resultado de los datos sintéticos, ten en cuenta los siguientes obstáculos y cómo eliminarlos:

Fiabilidad de los datos

Puede resultar difícil garantizar que los datos sintéticos reflejen con precisión las condiciones del mundo real. Si los datos generados no son confiables, pueden generar un rendimiento deficiente del modelo y predicciones inexactas. Las organizaciones deben asegurarse de utilizar modelos generativos avanzados y validar continuamente los datos sintéticos contra conjuntos de datos del mundo real para mejorar su confiabilidad.

Replicación de valores atípicos

Los datos sintéticos son una representación de lo que la organización o el modelo generativo cree que deben ser los datos; es posible que no capturen eventos raros o valores atípicos de manera efectiva. Desafortunadamente, estos valores atípicos pueden ser cruciales para formar modelos eficaces, especialmente en campos como la detección de fraude. La implementación de técnicas para modelar e incluir específicamente los valores atípicos puede ayudar a garantizar que estén representados en los conjuntos de datos sintéticos.

Requisitos

La creación de datos sintéticos de alta calidad exige una experiencia, tiempo y esfuerzo significativos. El desarrollo de algoritmos que generen datos realistas implica una comprensión profunda y un ajuste cuidadoso, lo que puede implicar el uso intensivo de recursos. Es posible que algunas organizaciones no tengan los recursos necesarios para cumplir con estos requisitos. Para contrarrestar esto, deben invertir en formación para científicos de datos y utilizar herramientas automatizadas para ayudar a optimizar el proceso de generación de datos.

Aceptación del usuario

Puede haber resistencia al uso de datos sintéticos entre los interesados que están más familiarizados con los datos reales. Convencer a los usuarios de la validez y utilidad de los datos sintéticos requiere educación y una demostración clara de sus beneficios.

Control de calidad y de los resultados

Es esencial mantener la calidad y la coherencia de los datos sintéticos. La implementación de procesos exhaustivos de garantía de calidad, incluidas auditorías periódicas y bucles de comentarios, puede ayudar a las empresas a garantizar que sus datos cumplan con los estándares requeridos.

¿Cuáles son ejemplos de datos sintéticos?

Los datos sintéticos pueden utilizarse en varios formatos, cada uno orientado a distintas aplicaciones y necesidades en el desarrollo de la IA y el aprendizaje automático. por ejemplo:

Datos de texto

Esto incluye texto generado sintéticamente utilizado para formar bots de chat de IA, modelos de lenguaje y algoritmos de traducción. Mediante la creación de conversaciones y documentos artificiales, los desarrolladores pueden mejorar las competencias de procesamiento de lenguaje natural (PNL).

Datos tabulares

Este tipo de datos sintéticos consiste en tablas de datos sintéticos utilizadas para el análisis de datos, el modelado financiero y la formación en aprendizaje automático. Replican la estructura y las propiedades estadísticas de los conjuntos de datos tabulares del mundo real, lo que los hace valiosos para el modelado predictivo y la evaluación de riesgos.

Datos de medios

Los datos de medios implican imágenes sintéticas, audio y video creados con gráficos por computadora y algoritmos de procesamiento de imágenes. Se utilizan ampliamente en aplicaciones como visión por computadora, reconocimiento de imágenes y formación en sistemas autónomos.

Datos no estructurados

Los datos no estructurados abarcan una variedad de tipos de datos, incluido texto, imágenes, video y audio que no siguen un formato predefinido. Los datos sintéticos no estructurados son particularmente útiles para formar modelos de IA en campos como visión por computadora, reconocimiento de voz y a comprensión del lenguaje natural, donde se espera que el sistema sea capaz de encontrar patrones en conjuntos de datos aparentemente aleatorios.

¿Cuáles son los casos importantes de uso de datos sintéticos?

Los datos sintéticos ya se emplean en todas las industrias de todo el mundo, lo que ofrece soluciones a varios desafíos de formación en IA. Los siguientes son algunos de los casos de uso de mayor impacto de los datos sintéticos:

Servicios de salud

El uso de datos sintéticos permite la creación de grandes conjuntos de datos para formar modelos de IA en diagnósticos médicos, investigación y planificación de tratamientos, al mismo tiempo que protege la confidencialidad tan necesaria de los pacientes del mundo real.

Cumplimiento de regulaciones

El uso de conjuntos de datos artificiales protege la privacidad individual, al mismo tiempo que permite conocimientos basados en datos. Esto facilita que las organizaciones cumplan con las leyes, regulaciones y políticas de privacidad de los datos.

Instituciones financieras

Los bancos y otras organizaciones financieras utilizan datos sintéticos para la detección de fraude, la gestión de riesgos y el desarrollo de modelos de riesgo crediticio.

Automóviles

Los datos sintéticos se utilizan para simular y formar vehículos autónomos, lo que mejora su seguridad y eficiencia al proporcionar diversos escenarios de conducción sin riesgos de pruebas reales.

Predicción de desastres y gestión de riesgos

Los modelos formados a partir de datos sintéticos pueden simular desastres naturales y evaluar riesgos mucho antes de que ocurran, lo que ayuda en la preparación para desastres e informa las estrategias de mitigación.

Pruebas/Control de calidad

Se pueden crear escenarios de prueba realistas con datos sintéticos, lo que permite a los desarrolladores de software probar y mejorar las aplicaciones sin depender de datos de producción reales.

Comercio minorista y comercio electrónico

Los minoristas de todo tipo utilizan datos sintéticos para optimizar la gestión de inventario, analizar el comportamiento de los clientes y personalizar las estrategias de marketing para mejorar la orientación. Los datos sintéticos también ayudan a mejorar los sistemas de recomendación y a predecir las tendencias de ventas.

Agricultura

Ayudan en la agricultura de precisión simulando patrones de crecimiento de cultivos, impactos climáticos e infestaciones de plagas para mejorar el rendimiento y la gestión de recursos. Los datos sintéticos en la visión por computadora mejoran la capacidad de la IA para identificar varios tipos de plantas y semillas para su uso en modelos de crecimiento y detección de enfermedades de cultivos.

Fabricación

Los datos sintéticos se utilizan para simular los procesos de producción, optimizar las operaciones y predecir las necesidades de mantenimiento de los equipos, lo que mejora la eficiencia y reduce el tiempo de inactividad en las fábricas.

¿Cómo se generan los datos sintéticos?

El proceso de generación de datos sintéticos varía según las herramientas, los algoritmos y los casos de uso específicos involucrados. Estas son tres técnicas comunes utilizadas para crear datos sintéticos:

Generación de datos a partir de distribuciones simples

Este método implica seleccionar al azar números de una distribución predefinida, como distribuciones gaussianas o uniformes. Si bien generalmente no captura las mismas complejidades de los datos del mundo real, proporciona una forma básica de generar datos con propiedades estadísticas similares, útiles para pruebas iniciales de modelos y simulaciones simples.

Modelado basado en agentes

Esta técnica simula las interacciones entre agentes autónomos dentro de un sistema, como personas, teléfonos celulares o programas informáticos. Cada agente opera en función de reglas predefinidas y puede interactuar con otros agentes, lo que permite a los investigadores estudiar sistemas y comportamientos complejos.

Modelos generativos

Los algoritmos avanzados, como los modelos de difusión, generan datos sintéticos mediante el aprendizaje de las propiedades estadísticas de los conjuntos de datos del mundo real. Estos modelos se forman en función de datos reales para comprender patrones y relaciones, lo que les permite crear datos nuevos y similares. Los modelos de difusión son altamente eficaces para producir conjuntos de datos sintéticos realistas y de alta calidad, lo que los hace valiosos para la formación y las pruebas de modelos de IA.

Precios de ServiceNow ServiceNow ofrece paquetes de productos competitivos que escalan contigo a medida que tu empresa crece y tus necesidades cambian. Ver precios
Optimiza los datos sintéticos con ServiceNow

Cuando se trata de datos de formación de IA, a veces “reales” no es la mejor opción. Los datos sintéticos ofrecen escalabilidad mejorada, calidad de los datos, reducción de sesgos y rentabilidad, todo mientras reproducen las propiedades de (pero no los detalles confidenciales) de los puntos de datos reales. Esto los convierte en un activo invaluable para las empresas que buscan aprovechar las competencias avanzadas de IA.

ServiceNow está a la vanguardia de la aplicación de soluciones de IA a las necesidades empresariales, al ofrecer un conjunto completo de competencias de IA a través de la potente Now Platform®. Al incorporar lo último en tecnología de IA, incluidos marcos de trabajo de aprendizaje automático, procesamiento del lenguaje natural, análisis predictivo y más, ServiceNow permite a las organizaciones adoptar un enfoque empresarial más inteligente y autónomo. Además, con las competencias integrales de IA generativa de ServiceNow a través de la aplicación Now Assist, tendrás todo lo que necesitas para crear los datos que guiarán tus sistemas de IA. Solicita una demostración de ServiceNow hoy para obtener más información.

Alt
Explorar los flujos de trabajo de IA Descubre cómo la plataforma ServiceNow ofrece IA procesable en cada aspecto de tu empresa. Explorar la IA generativa Comunícate con nosotros
Recursos Artículos ¿Qué es la IA? ¿Qué es GenAI? Informes de analista Resumen informativo de IDC: Maximiza el valor de la IA con una plataforma digital IA generativa en operaciones de TI Implementación de GenAI en la industria de las telecomunicaciones Ficha técnica Búsqueda basada en IA Predecir y evitar interrupciones con ServiceNow® Predictive AIOps Resource Management eBooks Moderniza los servicios y las operaciones de TI con IA GenAI: ¿es realmente la gran cosa? Libere la productividad empresarial con GenAI White papers Índice de madurez de la IA empresarial GenAI para telecomunicaciones