Che cosa sono i dati sintetici? I dati sintetici sono informazioni generate dal computer, progettate per integrare o sostituire i dati reali allo scopo di migliorare i modelli di AI, proteggere i dati sensibili e ridurre i bias. Creati dall'AI generativa addestrata su campioni del mondo reale, rispecchiano le proprietà dei dati originali senza contenere informazioni personali. Demo AI
Informazioni utili sui dati sintetici
In cosa si differenziano i dati sintetici dai dati reali? Qual è l'origine dei dati sintetici? Quali sono i diversi tipi di dati sintetici? Cosa si intende per dati aumentati e anonimizzati e dati sintetici? Quali sono i vantaggi dei dati sintetici? Vantaggi dei dati sintetici nel machine learning Quali sono alcune delle sfide nell'utilizzo di dati sintetici? Quali sono esempi di dati sintetici? Quali sono i casi d'uso principali dei dati sintetici? Come vengono generati i dati sintetici? Sfrutta i dati sintetici con ServiceNow

Ogni modello di intelligenza artificiale si basa su enormi quantità di dati per funzionare in modo efficace: più il set di dati è diversificato e completo, meglio l'AI potrà apprendere, adattarsi ed essere efficace. Pertanto, l'addestramento di modelli di AI utilizzabili richiede notevoli quantità di dati di alta qualità. Questo può creare potenziali preoccupazioni. Può essere difficile ottenere dati e i metodi tradizionali di raccolta dati sono spesso costosi, richiedono molto tempo e possono persino creare problemi legati alla privacy e ai bias. Per contrastare questi e altri problemi, le aziende che lavorano con l'AI stanno concentrando l'attenzione su una fonte simulata con cui addestrare i propri sistemi intelligenti: i dati sintetici.

I dati sintetici sono informazioni generate artificialmente, progettate per imitare i dati del mondo reale. Sono la soluzione a molte delle sfide associate all'utilizzo di dati reali. Sfruttando modelli avanzati di AI generativa (GenAI), i dati sintetici forniscono un'alternativa versatile ed etica in grado di migliorare lo sviluppo dell'AI senza introdurre i rischi comunemente associati all'addestramento dell'AI.

Espandi tutto Comprimi tutto In cosa si differenziano i dati sintetici dai dati reali?

Prima di addentrarci nei dettagli, vale la pena specificare brevemente in che modo i dati sintetici differiscono dai dati reali:

  • I dati sintetici vengono generati artificialmente in modo che abbiano le stesse proprietà statistiche dei dati del mondo reale. Non includono punti dati effettivi correlati a informazioni del mondo reale.
  • I dati reali vengono raccolti da eventi, persone e interazioni del mondo reale; i relativi punti dati contengono informazioni reali che potrebbero essere di natura sensibile. .

Utilizzando dati sintetici generati correttamente, le aziende possono ottenere i vantaggi di un addestramento completo dei dati senza il rischio di esporre dati reali o di incorporare informazioni distorte o irrilevanti nei propri set di dati di addestramento.

Presentazione di Now Intelligence Scopri come ServiceNow porta l'AI e l'analisi fuori dai laboratori per trasformare il modo di lavorare delle aziende e accelerare la trasformazione digitale. Scarica l'eBook
Qual è l'origine dei dati sintetici?

Le origini dei dati simulati risalgono agli anni '40 del Novecento, quando le simulazioni di Monte Carlo vennero ampiamente utilizzate nel Progetto Manhattan per modellare scenari probabilistici complessi. Questo lavoro pionieristico ha posto le basi per l'utilizzo di dati artificiali per replicare le condizioni del mondo reale. Negli anni Novanta, i dati simulati venivano regolarmente utilizzati nelle analisi statistiche e nella computer grafica, con applicazioni nell'ingegneria aerospaziale e automobilistica per testare i sistemi in diverse condizioni ipotetiche.

Con l'aumento della domanda di set di dati più ampi e diversificati nel corso degli anni 2000 e oltre, sono diventati evidenti i limiti dei dati del mondo reale. I ricercatori si sono rivolti a modelli generativi, come le reti avversarie generative (GAN) e gli autoencoder variazionali (VAE), per produrre dati sintetici ad alta fedeltà apprendendo da campioni di dati reali. Oggigiorno, i dati sintetici rappresentano uno strumento fondamentale per addestrare e testare i sistemi di AI in modo controllato, scalabile e privo di rischi.

Quali sono i diversi tipi di dati sintetici?

I dati sintetici non sono una soluzione "tutto o niente": le organizzazioni possono scegliere quanti dati sintetici includere nei loro set di addestramento. Ciò ha portato a tre diverse categorie o tipologie di input di dati sintetici:

 

Completamente sintetici

Come suggerisce il nome, questo tipo di set di dati non utilizza dati reali, ma si affida interamente ad algoritmi per generare dati sintetici con proprietà statistiche reali. I dati completamente sintetici garantiscono la più alta protezione della privacy (poiché non contengono informazioni personali reali), eliminano i rischi associati a bias (consentendo la creazione di set di dati progettati per essere equi e rappresentativi) e sono altamente flessibili. Sfortunatamente, potrebbero mancare alcune sfumature dei dati reali e ciò potrebbe avere un impatto potenziale sulle prestazioni del modello nelle applicazioni del mondo reale.

Parzialmente sintetici

Questo approccio sostituisce solo alcune caratteristiche sensibili con valori sintetici, mantenendo al contempo parti dei dati reali, bilanciando privacy e sicurezza con il mantenimento di preziose caratteristiche dei dati reali. Questo approccio comporta comunque un certo rischio di fuga di informazioni e potrebbe non eliminare completamente i bias nascosti nei dati reali.

Ibridi reali/sintetici

L'approccio ibrido combina dati reali e sintetici, abbinando record di dati reali casuali con record di dati sintetici simili. Fornisce un buon mix di vantaggi, garantendo un addestramento completo del modello e migliorando al contempo la privacy. Richiedono inoltre più tempo di elaborazione e memoria e la gestione dell'integrazione di dati reali e sintetici può rivelarsi un compito complesso.

Cosa si intende per dati aumentati e anonimizzati e dati sintetici?

I dati sintetici presentano alcune somiglianze con il concetto di dati aumentati, ma vi sono diverse importanti distinzioni:

I dati aumentati comportano il potenziamento di set di dati reali già esistenti. Questo metodo amplia i set di dati senza generare dati completamente nuovi (ad esempio ruotando o schiarendo i dati delle immagini) ed è pertanto utile per migliorare l'addestramento dell'AI senza raccogliere dati reali aggiuntivi. Tuttavia, non affronta in modo efficace le problematiche relative alla privacy o ai bias dei dati e, per funzionare, si basa ancora su notevoli quantità di dati del mondo reale.

I dati anonimizzati, d'altro canto, rimuovono o nascondono le informazioni personali dai set di dati reali per proteggere la privacy. Sebbene ciò contribuisca a soddisfare i requisiti normativi e a ridurre i rischi per la privacy, può comunque mantenere dei bias di fondo e potrebbe non rimuovere completamente tutte le informazioni sensibili.

Contrariamente a questi altri approcci, i dati sintetici sono generati interamente da algoritmi che imitano le proprietà statistiche dei dati del mondo reale, senza utilizzare punti dati effettivi. Questo approccio garantisce una protezione della privacy più completa e consente la creazione di set di dati diversificati, privi di bias e adattati alle esigenze specifiche. Ciò rende i dati sintetici la soluzione più versatile ed etica attualmente disponibile per l'addestramento dell'AI.

Quali sono i vantaggi dei dati sintetici?

Lavorare con dati che presentano le stesse proprietà dei dati reali senza doversi collegare a specifiche fonti reali offre numerosi vantaggi. Tra i vantaggi aziendali più degni di nota ci sono:

Qualità dei dati

I dati sintetici sono progettati per essere privi di errori e per garantire coerenza. Eliminando le imprecisioni e le incongruenze presenti nei dati reali, i dati sintetici garantiscono input di alta qualità, dando vita a modelli di AI più accurati.

 

Privacy dei dati

I dati sintetici eliminano i rischi legati alla compromissione delle informazioni personali. Rispettano le normative sulla privacy e riducono il rischio di violazioni dei dati.

 

Scalabilità

I dati sintetici possono essere generati in grandi quantità e molto rapidamente. Questa scalabilità garantisce che le organizzazioni possano continuamente perfezionare e migliorare i propri modelli senza i vincoli imposti dai dati limitati.

 

Rapporto qualità-prezzo

Generare dati sintetici è spesso più economico di raccogliere ed etichettare dati reali. Ciò li rende un'opzione interessante per le organizzazioni che mirano a ottimizzare la propria AI operando entro limiti di budget.

 

Riduzione dei bias

I dati sintetici possono essere creati per affrontare e mitigare i bias insiti nei dati del mondo reale. Ciò contribuisce allo sviluppo di sistemi di AI più imparziali, che operano in modo più equo in gruppi demografici e scenari diversificati.

 

Dati personalizzabili

I dati sintetici possono essere adattati a esigenze specifiche, garantendone la pertinenza e l'accuratezza per l'applicazione prevista. La personalizzazione consente la creazione di dati che corrispondono esattamente ai requisiti di particolari modelli di AI.

 

Controllo completo dell'utente

Gli utenti possono dettare i parametri di generazione dei dati, assicurando che il set di dati soddisfi requisiti specifici. Ciò consente alle aziende di creare dati che soddisfano esattamente le esigenze del loro modello di AI, dando vita a soluzioni più efficaci e mirate.

 

Etichettatura dei dati

I dati sintetici includono un'etichettatura intrinseca, riducendo la necessità di annotazioni manuali. L'automazione dell'etichettatura velocizza il processo di preparazione dei dati e riduce i costi di manodopera.

 

Produzione più veloce

I dati sintetici possono essere prodotti molto più rapidamente rispetto ai metodi tradizionali di raccolta dei dati. Accelerando lo sviluppo e la distribuzione di modelli di intelligenza artificiale, le aziende possono mettere a punto soluzioni di AI completamente addestrate più rapidamente di quanto sarebbe altrimenti possibile.

 

Vantaggi dei dati sintetici nel machine learning

Oltre ai vantaggi sopra elencati, i dati sintetici offrono vantaggi specifici per i modelli di machine learning (ML). Ancor più di molti altri approcci all'AI, il machine learning dipende in larga misura da enormi quantità di dati di addestramento, dati che possono essere forniti più rapidamente e a costi inferiori quando vengono generati sinteticamente.

Un altro ambito in cui i dati sintetici rivestono particolare importanza per il machine learning è lo sviluppo di repository di dati per modelli di ML pre-addestrati tramite l'apprendimento per trasferimento. Ciò comporta il riutilizzo dei dati di addestramento per altre attività correlate. I nuovi modelli di ML possono partire da una posizione avvantaggiata, essendo pre-addestrati utilizzando l'apprendimento per trasferimento per poi incorporare dati sintetici aggiuntivi che consentano di perfezionare i processi.

Quali sono alcune delle sfide nell'utilizzo di dati sintetici?

Sebbene i dati sintetici offrano numerosi vantaggi, presentano anche diverse sfide. Per ottenere i migliori risultati dai dati sintetici, è importante conoscere i seguenti ostacoli e sapere come superarli:

Affidabilità dei dati

Può essere difficile garantire che i dati sintetici riflettano accuratamente le condizioni del mondo reale. Se i dati generati non sono affidabili, le prestazioni del modello potrebbero risultare scadenti e le previsioni essere imprecise. Le organizzazioni dovrebbero assicurarsi di utilizzare modelli generativi avanzati e di convalidare costantemente i dati sintetici rispetto a set di dati reali per migliorarne l'affidabilità.

Replicazione dei valori anomali

I dati sintetici sono una rappresentazione di come l'organizzazione o il modello generativo ritengono che i dati dovrebbero apparire; potrebbero non catturare in modo efficace eventi rari o valori anomali. Sfortunatamente, questi valori anomali possono rivelarsi cruciali per l'addestramento di modelli efficaci, soprattutto in settori come l'individuazione delle frodi. L'implementazione di tecniche per modellare e includere in modo specifico i valori anomali può aiutare a garantire che vengano rappresentati nei set di dati sintetici.

Requisiti

La creazione di dati sintetici di alta qualità richiede competenze, tempo e impegno notevoli. Lo sviluppo di algoritmi che generano dati realistici richiede una comprensione approfondita e un attento perfezionamento, che possono richiedere un ampio impiego di risorse. Alcune organizzazioni potrebbero non disporre delle risorse necessarie per soddisfare tali requisiti. Per risolvere questo problema, dovrebbero investire nella formazione dei data scientist e utilizzare strumenti automatizzati per semplificare il processo di generazione dei dati.

Accettazione degli utenti

Potrebbe esserci resistenza all'utilizzo di dati sintetici tra gli stakeholder che hanno maggiore familiarità con i dati reali. Per convincere gli utenti della validità e dell'utilità dei dati sintetici sono necessarie formazione e una chiara dimostrazione dei loro benefici.

Controllo di qualità e controllo dell'output

È essenziale mantenere la qualità e la coerenza dei dati sintetici. L'implementazione di accurati processi di controllo qualità, tra cui audit regolari e cicli di feedback, può aiutare le aziende a garantire che i propri dati soddisfino gli standard richiesti.

Quali sono esempi di dati sintetici?

I dati sintetici possono essere utilizzati in vari formati, ognuno dei quali soddisfa applicazioni ed esigenze diverse nello sviluppo del machine learning e dell'AI. Tra gli esempi figurano:

Dati di testo

Includono testo generato sinteticamente e utilizzato per addestrare chatbot basati sull'AI, modelli linguistici e algoritmi di traduzione. Creando conversazioni e documenti artificiali, gli sviluppatori possono migliorare le funzionalità di elaborazione del linguaggio naturale (NLP).

Dati tabellari

Questa tipologia di dati sintetici è costituita da tabelle di dati sintetici utilizzate per l'analisi dei dati, la modellazione finanziaria e l'addestramento del machine learning. Riproduce la struttura e le proprietà statistiche dei set di dati tabellari reali ed è pertanto utile per la modellazione predittiva e la valutazione del rischio.

Dati multimediali

I dati multimediali comprendono immagini, audio e video sintetici, creati utilizzando algoritmi di elaborazione delle immagini e grafica computerizzata. Sono ampiamente utilizzati in applicazioni quali la visione artificiale, il riconoscimento delle immagini e l'addestramento di sistemi autonomi.

Dati non strutturati

I dati non strutturati comprendono una varietà di tipi di dati, tra cui testo, immagini, video e audio, che non seguono un formato predefinito. I dati sintetici non strutturati sono particolarmente utili per addestrare modelli di AI in campi come la visione artificiale, il riconoscimento vocale e la comprensione del linguaggio naturale, in cui ci si aspetta che il sistema sia in grado di trovare schemi in set di dati apparentemente casuali.

Quali sono i casi d'uso principali dei dati sintetici?

I dati sintetici sono già impiegati in vari settori industriali in tutto il mondo, offrendo soluzioni a varie sfide legate all'addestramento dell'AI. Di seguito sono riportati alcuni dei casi d'uso più significativi dei dati sintetici:

Settore sanitario

L'uso di dati sintetici consente la creazione di grandi set di dati per l'addestramento di modelli di AI nella diagnostica medica, nella ricerca e nella pianificazione dei trattamenti, proteggendo al contempo la necessaria riservatezza dei pazienti nel mondo reale.

Conformità con la normativa vigente

L'utilizzo di set di dati artificiali protegge la privacy dei soggetti consentendo al contempo analisi basate sui dati. In questo modo è più facile per le organizzazioni conformarsi alle leggi, ai regolamenti e alle policy sulla privacy dei dati.

Istituti finanziari

Le banche e altre organizzazioni finanziarie utilizzano dati sintetici per rilevare frodi, gestire i rischi e sviluppare modelli di rischio di credito.

Settore automobilistico

I dati sintetici vengono utilizzati per simulare e addestrare veicoli autonomi, migliorandone la sicurezza e l'efficienza grazie alla possibilità di fornire diversi scenari di guida senza i rischi dei test nel mondo reale.

Previsione dei disastri e gestione del rischio

I modelli addestrati su dati sintetici possono simulare disastri naturali e valutare i rischi ben prima che si verifichino, contribuendo alla preparazione ai disastri e fornendo informazioni preziose sulle strategie di mitigazione.

Test/QA

Utilizzando dati sintetici è possibile creare scenari di test realistici, consentendo agli sviluppatori software di testare e migliorare le applicazioni senza dover fare affidamento su dati di produzione reali.

Retail ed e-commerce

I rivenditori di ogni tipo utilizzano dati sintetici per ottimizzare la gestione dell'inventario, analizzare il comportamento dei clienti e personalizzare le strategie di marketing per una migliore targetizzazione. I dati sintetici aiutano anche a migliorare i sistemi di raccomandazione e a prevedere le tendenze di vendita.

Agricoltura

Contribuiscono all'agricoltura di precisione simulando i modelli di crescita delle colture, gli impatti meteorologici e le infestazioni di parassiti per migliorare la resa e la gestione delle risorse. I dati sintetici nella visione artificiale migliorano la capacità dell'AI di identificare vari tipi di piante e semi da utilizzare nei modelli di crescita e nel rilevamento delle malattie delle colture.

Manifatturiero

I dati sintetici vengono utilizzati per simulare i processi di produzione, ottimizzare le operazioni e prevedere le esigenze di manutenzione delle apparecchiature, migliorando l'efficienza e riducendo i tempi di fermo nelle aziende manifatturiere.

Come vengono generati i dati sintetici?

Il processo di generazione dei dati sintetici varia a seconda degli strumenti, degli algoritmi e dei casi d'uso specifici coinvolti. Ecco tre tecniche comuni utilizzate per creare dati sintetici:

Generazione di dati da distribuzioni semplici

Questo metodo prevede la selezione casuale di numeri da una distribuzione predefinita, come la distribuzione gaussiana o uniforme. Sebbene in genere non riesca a catturare le stesse complessità dei dati del mondo reale, fornisce un metodo di base per generare dati con proprietà statistiche simili, utili per i test iniziali dei modelli e per simulazioni semplici.

Modellazione basata su agenti

Questa tecnica simula le interazioni tra agenti autonomi all'interno di un sistema, come persone, telefoni cellulari o programmi informatici. Ogni agente opera in base a regole predefinite e può interagire con altri agenti, consentendo ai ricercatori di studiare sistemi e comportamenti complessi.

Modelli generativi

Algoritmi avanzati, come i modelli di diffusione, generano dati sintetici apprendendo le proprietà statistiche di set di dati del mondo reale. Questi modelli si addestrano su dati reali per comprendere modelli e relazioni, il che consente loro di creare dati nuovi e simili. I modelli di diffusione sono estremamente efficaci nel produrre set di dati sintetici realistici e di alta qualità, il che li rende preziosi per l'addestramento e il test dei modelli di AI.

Prezzi di ServiceNow ServiceNow offre pacchetti di prodotti competitivi che si ampliano man mano che la tua azienda cresce e le tue esigenze cambiano. Scopri i prezzi
Sfrutta i dati sintetici con ServiceNow

Se parliamo di dati di addestramento dell'AI, a volte i "dati reali" non sono l'opzione migliore. I dati sintetici offrono scalabilità, qualità dei dati, riduzione dei bias e rapporto qualità-prezzo migliori, tutto rispecchiando le proprietà (ma non i dettagli sensibili) dei punti dati reali. Questi li rende una risorsa inestimabile per le aziende che mirano a sfruttare le funzionalità avanzate dell'AI.

ServiceNow è all'avanguardia nell'applicazione di soluzioni di AI alle esigenze aziendali, offrendo una suite completa di funzionalità di AI attraverso la potente Now Platform®. Integrando le più recenti tecnologie nel campo dell'AI, tra cui framework di machine learning, elaborazione del linguaggio naturale, analisi predittiva e molto altro, ServiceNow consente alle organizzazioni di adottare un approccio al business più intelligente e autonomo. Inoltre, grazie alle funzionalità complete dell'AI generativa di ServiceNow tramite l'applicazione Now Assist, avrai tutto ciò di cui hai bisogno per creare i dati che guideranno i tuoi sistemi di AI. Richiedi subito una demo ServiceNow per saperne di più!

Alt
Scopri i flussi di lavoro AI Scopri come la piattaforma di ServiceNow consente di utilizzare l'AI in ogni reparto dell'azienda. Scopri la GenAI Contattaci
Risorse Articoli Che cos'è l'AI? Che cos'è la GenAI? Report di analisi IDC Infobrief: Maximize AI Value with a Digital Platform (Infobrief IDC: Massimizza il valore dell'intelligenza artificiale con una piattaforma digitale) Intelligenza artificiale generativa nelle operazioni IT Implementare la GenAI nel settore delle telecomunicazioni Schede dati Ricerca AI Prevedi e previeni le interruzioni con l'AIOps predittiva di ServiceNow® Gestione risorse eBook Modernizza i servizi e le operazioni IT con l'AI GenAI: è davvero così importante? Sfrutta la produttività aziendale con la GenAI White Paper Indice di maturità dell'AI aziendale La GenAI per le telecomunicazioni