- Why Microsoft is unifying data and AI within Fabric
- How AI can help design your company like a stealth aircraft
- I changed 8 settings on my Pixel phone to instantly improve the battery life
- I changed 10 settings on my Pixel phone for an instant performance boost
- Health-ISAC 2025 Report: Ransomware Still Reigns as #1 Threat to Healthcare
I dati sintetici e la linea sottile che divide il successo dal disastro

Fino al 20% dei dati utilizzati per l’addestramento dell’intelligenza artificiale è già sintetico, ovvero generato anziché ottenuto dall’osservazione del mondo reale, con LLM che utilizzano milioni di campioni sintetizzati. Secondo Gartner, questa percentuale potrebbe raggiungere l’80% entro il 2028, aggiungendo che, da qui al 2030, i dati sintetici saranno utilizzati per il 50% delle decisioni aziendali. Va, tuttavia, precisato che qualsiasi output ottenuto da un LLM è un dato sintetico.
L’addestramento dell’AI è il campo in cui i dati sintetici danno il meglio di sé, evidenzia Vibha Chitkara [in inglese], ricercatrice principale di Gartner. “Affronta efficacemente molte sfide intrinseche associate ai dati del mondo reale, come la parzialità, l’incompletezza, il rumore, i limiti storici e le preoccupazioni relative alla privacy e alla regolamentazione, comprese le informazioni di identificazione personale”, afferma.
La generazione di grandi volumi di dati di formazione su richiesta è interessante rispetto alla raccolta lenta e costosa di quelli reali, che può essere soggetta a problemi di privacy o semplicemente non disponibile. I dati sintetici [in inglese] dovrebbero aiutare a preservare la privacy, accelerare lo sviluppo ed essere più convenienti per scenari a lungo termine che le imprese non potrebbero altrimenti affrontare, aggiunge. Possono anche essere utilizzati per sperimentazioni controllate, a condizione che siano sufficientemente accurati.
I dati appositamente creati sono ideali per la pianificazione di scenari e l’esecuzione di simulazioni intelligenti, mentre i dati sintetici sufficientemente dettagliati da coprire interi scenari potrebbero prevedere il comportamento futuro di risorse, processi e clienti, che sarebbe prezioso per la pianificazione aziendale. Questo tipo di utilizzo avanzato richiede motori di simulazione e l’equivalente dei gemelli digitali, ancora in fase di sviluppo al di fuori di alcune aree di adozione precoce.
La scienza dei materiali, la ricerca farmaceutica, il settore petrolifero e del gas e la produzione sono mercati ovvii, ma l’interesse sta crescendo anche nei settori della supply chain e delle assicurazioni. In tutti questi casi, strumenti sufficientemente accessibili e accurati potrebbero garantire miglioramenti operativi e aumento dei ricavi, oltre a ottimizzare i costi e ridurre i rischi in molti settori del processo decisionale aziendale.
Inoltre, i team di marketing e progettazione dei prodotti potrebbero creare clienti simulati sulla base dei dati di acquisto e dei sondaggi esistenti sui clienti, per poi intervistarli e ottenere feedback sui nuovi prodotti e sulle nuove campagne. Un’azienda globale della catena di fornitura sta sperimentando la simulazione di interruzioni dovute a disastri naturali, pandemie e cambiamenti geopolitici per migliorare la resilienza. Si tratta di un processo in più fasi che prevede la creazione di appositi motori che generano set di dati sull’impatto che questi scenari avranno sulle rotte di approvvigionamento e consegna, e poi l’addestramento di modelli di AI per analizzare tali scenari e suggerire come rafforzare le catene di fornitura.
Gli usi più immediati dei dati sintetici possono essere più prosaici. In effetti, le organizzazioni probabilmente li stanno già utilizzando in modo limitato al di fuori dell’intelligenza artificiale. Gli sviluppatori web e di applicazioni si affidano, per esempio, al monitoraggio sintetico che simula le interazioni degli utenti su larga scala per misurare le prestazioni e la disponibilità per diversi scenari, luoghi e dispositivi, invece di aspettare che gli utenti reali incontrino aree problematiche, o di testare nuove app e funzionalità prima del lancio.
Amplificazione accurata
Se creati correttamente, i dati sintetici imitano le proprietà statistiche e i modelli dei dati reali senza contenere record effettivi dal set di dati originale, sottolinea Jarrod Vawdrey, capo data scientist operativo di Domino Data Lab. David Cox [in inglese], vice president per i modelli AI di IBM Research, suggerisce di considerarli un’amplificazione piuttosto che una creazione di dati. “Quelli reali possono essere estremamente costosi da produrre, ma se ne avete una piccola quantità, potete moltiplicarli”, sottolinea. “In alcuni casi, è possibile creare dati sintetici di qualità molto superiore all’originale perché i dati reali sono un campione e non coprono tutte le diverse variazioni e permutazioni che si possono incontrare nel mondo reale”.
Sono particolarmente utili quando non ci sono dati personali e nessun modello di minaccia. Per esempio, sintetizzare più casi per migliorare gli agenti basati su LLM e le API nel proprio ambiente ha effetti positivi dimostrabili sui modelli.
Per questi scenari, Cox sostiene che gli strumenti-chiave in mano a vendor come IBM sono sicuri e potenti. “I dati sintetici sono un valido alleato in questo caso”, dice. “Aiutano a migliorare il modello in determinati ambiti. Non sono associati a persone reali, e sono, pertanto, del tutto innocui e sicuri”. Incorporare la conoscenza di un determinato domain e garantire la distribuzione reale di tratti, proprietà e caratteristiche nei dati sintetici migliora effettivamente i modelli rispetto a quelli che sarebbero stati se fossero stati addestrati solo su dati reali.
“La maggior parte dei problemi che si riscontrano in produzione sono dovuti a condizioni di contorno, che i fati reali non sono in grado di rappresentare in maniera esaustiva”, dichiara Rahul Rastogi, Chief Innovation Officer della piattaforma di dati in tempo reale SingleStore.
Le aziende che necessitano di rilevare prodotti danneggiati o difettosi su una linea di assemblaggio, per esempio, difficilmente dispongono di tutte le combinazioni possibili rilevabili dai modelli di visione artificiale. Così come, la sicurezza informatica può effettuare test più estremi con i dati sintetici, afferma. “Probabilmente la pratica migliore è quella di effettuare una modellazione delle minacce e generare quanti più dati sintetici possibile, perché non ci si può permettere di aspettare che il modello presenti delle falle, generi risultati errati o troppi falsi positivi”, commenta.
L’AI Act dell’UE [in inglese] potrebbe incoraggiare un maggiore utilizzo dei dati sintetici perché se le organizzazioni vogliono utilizzare i dati personali in un sandbox normativo per carichi di lavoro che soddisfano i criteri di interesse pubblico, per esempio la sostenibilità energetica o la protezione delle infrastrutture critiche, devono dimostrare che non è possibile farne ricorso.
Anche per le aziende non interessate dalla legge UE sull’IA, Gartner raccomanda l’uso di dati sintetici, ove possibile, data la probabilità che i modelli di intelligenza artificiale generativa possano conservare i dati personali inclusi (direttamente o indirettamente) in un prompt. I modelli di utilizzo del linguaggio, gli argomenti di interesse o semplicemente il profilo dell’utente possono essere sufficienti per rischiare di reidentificare un individuo. Tuttavia, nonostante i potenziali vantaggi, ottenere dati sintetici corretti non è sempre facile.
“Possono essere una forza positiva, ma anche causare gravi problemi”, tiene a precisare Kjell Carlsson, vice president e analista di Gartner. “Potremmo migliorare la maggior parte dei nostri casi d’uso utilizzando i dati sintetici in qualche modo, ma ciò comporta dei rischi e le persone non hanno familiarità con essi. È necessario che vengano affidati soltanto a chi sa che cosa sta facendo, e che si presti attenzione a ciò che si fa”.
Replicare troppo la realtà
Il settore sanitario, dove la protezione della privacy impedisce la condivisione di dati che potrebbero migliorare l’intelligenza artificiale, è un cliente ovvio per i dati sintetici, ma questi sono utili per qualsiasi circostanza in cui i dati dei clienti sono particolarmente preziosi.
Sebbene non possa rivelare il nome dell’azienda per cui ha gestito i servizi di reporting, analisi e dati a livello globale mentre lavorava in Apple, Rastogi afferma che, nonostante lo scetticismo iniziale, dopo aver verificato la dimensionalità, la distribuzione dei dati e le relazioni cartesiane con i dati, il suo ex team ha utilizzato con successo i dati sintetici dei clienti per i bakeoff, valutando nuove tecnologie per evitare di dare ai fornitori l’accesso ai dati reali dei clienti.
“Eravamo molto sensibili all’uso dei nostri dati reali”, rileva. “Sebbene quelli reali offrano i risultati migliori, eravamo sempre molto titubanti”. Questo accadeva cinque anni fa, ma Rastogi ritiene che oggi le aziende si trovino ad affrontare difficoltà simili nell’utilizzo dei propri dati per l’AI.
“Le informazioni reali sono materiale radioattivo a basso grado”, aggiunge Cox di IBM Research. “Non li si sposta fuori dalle mura dell’azienda, ma se è possibile evitare è meglio non farlo”. Inoltre, i dati copiati per gli sviluppatori possono essere rubati. Si tratta di un’enorme opportunità, poiché molte aziende dispongono di una miniera d’oro di dati di cui sono molto caute e di cui non sfruttano appieno il valore. Fare una copia del database dei clienti e metterla da qualche altra parte è un rischio notevole, quindi è molto più sicuro creare un surrogato sintetico”.
I dati sintetici promettono di farlo in modo da preservare la privacy, afferma Carlsson, poiché si creano strutture equivalenti del set di dati, che non dovrebbero includere alcun individuo reale. Ma questo processo può fallire. “Si potrebbe, per esempio, commettere un errore sovracampionando un individuo in maniera troppo frequente, finendo per replicare quella persona e per non ripulire il dato in seguito quando occorra rimuovere chiunque corrisponda a persone reali”, nota. “Oppure qualcuno potrebbe semplicemente decodificarlo, perché le relazioni tra i diversi campi sono abbastanza forti da poterlo capire”. La reidentificazione è ancora più probabile quando si combinano più set di dati.
Vawdrey definisce questo tipo di replica involontaria “modello di fuga” e “questo rischio si è evoluto insieme alle tecniche di generazione”, afferma. “I moderni metodi basati su GAN e LLM a volte possono memorizzare e riprodurre esempi di addestramento sensibili, quindi le aziende dovrebbero implementare metodi rigorosi di tutela della privacy come la privacy differenziale per garantire matematicamente la protezione contro la reidentificazione”.