I dati sintetici stanno emergendo come un’innovazione cruciale nel settore sanitario, in risposta a una crescente domanda di dati complessi e difficili da raccogliere.
Questi dati, generati tramite tecniche avanzate come le Generative Adversarial Networks (GAN), offrono vantaggi significativi, ma anche nuove sfide regolatorie e etiche che richiedono una riflessione attenta.
Indice degli argomenti
Definizione e caratteristiche ontologiche dei dati sintetici
Si definiscono «dati sintetici» – nella accezione ormai consolidata presso l’EDPS[1] – gli insiemi informativi elaborati ex novo attraverso modelli aventi lo scopo di replicare, con approssimazione inferenziale, caratteristiche e struttura dei dati c.d. originali: attraverso un processo di generazione (sintesi) questi ultimi (che possono essere dati reali; evidenze raccolte dagli analisti; o una combinazione tra i due) vengono replicati al preciso fine di fornire risultati aventi un elevato grado di verosimiglianza con i primi quando sottoposti alla stessa analisi statistica (e il grado di accuratezza dei dati sintetici rispetto ai dati originali diviene così una misura dell’utilità del metodo e del modello).
Ovviamente, la frattura concettuale derivante dai dati sintetici risiede non tanto nella mera procedura di de‑identificazione, quanto piuttosto nello statuto ontologico del dato: non si è più in presenza di un “dato personale degradato” – né tantomeno può parlarsi di anonimizzazione in senso proprio – ma, al contrario, trattasi di un vero artefatto epistemico, privo ab origine di soggettività referenziale (e per l’effetto, comunque, incapace di condurre all’identificazione della persona[2] sul cui dato si è costruito il relativo omologo sintetico[3]).
L’evoluzione tecnologica: dalle GAN alla sintesi algoritmica
Il punto di svolta, capace di produrre una transizione paradigmatica, si colloca a metà degli anni 2010[4], con l’irruzione delle Generative Adversarial Networks (GAN) come Midjourney e Dall-E: dal ‘duello algoritmico’ – che apprende la morfologia del dato reale per poi riprodurla secondo logiche di minimax optimisation – si ottengono infatti dati inesistenti nel mondo reale, dunque sintetici, eppure sufficientemente realistici da sembrare[5] veri.
Crescita quantitativa e bisogno di dati nell’era AI
Di dati sintetici si parla quindi ormai da qualche tempo, anche se – in realtà – trattasi di un fenomeno divenuto quantitativamente rilevante nel corso degli ultimi due o tre anni (fig. 1, Dashboard EDPS, da cui ben si evince come l’attenzione dedicata al tema faccia segnare oggi un +100% rispetto al 2022; +1.000% rispetto al 2018)[6].

Aumento che, a ben vedere, non stupisce. Se è vero (come è) che viviamo nella data-driven era, e che ogni giorno vengono generati circa 328,77 milioni di terabyte di dati[7], è però altrettanto vero che di dati ve n’è – in misura crescente – un enorme bisogno, tanto più dopo l’avvento delle AI generative: se le sopracitate Midjourney e Dall-E sono state addestrate su oltre 1 miliardo di immagini, il solo modello GPT-4 è il derivato dell’addestramento su un dataset che contiene circa 300 miliardi di parole. Da un lato produciamo enormi quantità di dati, dall’altro non sembriamo averne mai abbastanza (alcuni scrivono già di una generale carenza di dati[8]; tanto più per settori in cui la raccolta del dato è tradizionalmente difficoltosa, onerosa e necessariamente governata da specifiche cautele, come è per l’ambito medtech[9]).
Vantaggi applicativi: scalabilità, inferenza e flessibilità etica
In tale contesto, i dati sintetici non tardano a mostrare la loro utilità. A titolo esemplificativo, in termini di:
- scalabilità regolatoria (nel momento in cui il rischio di ri‑identificazione si attesti al di sotto della soglia di “ragionevole probabilità” – Considerando 26 GDPR – il dataset si ‘emancipa’ dallo statuto di dato personale strettamente inteso)[10];
- potenza inferenziale (la sintetizzazione consente di amplificare il riverbero di dati rari, ad esempio riferibili a classi patologiche rare, riducendo la varianza out‑of‑sample e favorendo un training algoritmicamente più equo);
- oltre ad una maggiore flessibilità in punto di valutazioni etiche[11].
Criticità tecniche e rischi di bias algoritmico
Ovviamente, neppure i dati sintetici sono esenti da criticità tecniche (rectius: tecnico-giuridiche): se il modello di sintesi è alimentato da dati distorti, il bias inevitabilmente si autopropagherà – in maniera sub‑percettiva – talora amplificando pattern spurî (così come, a livello sistemico: se sarà la stessa AI a produrre, in futuro, grandi quantità di dati, non rischiamo di arrivare ad una sovrabbondanza di dati “generati” rispetto ai dati “reali”?); mentre per patologie a bassa incidenza è configurabile un’attenuazione fenomenologica che sterilizza eventi rari, proprio laddove il dato reale avrebbe maggiore valore clinico.
E ancora: tecniche di record linkage basate su embeddings semantici ben potrebbero rendere plausibile una ri‑identificazione ex post, intervenendo sull’irreversibilità in senso trasformativo (facendola diventare una variabile temporale, anziché ontologica: se è vero che il problema delle tecniche di anonimizzazione è quello del loro invecchiamento[12], siamo davvero certi che lo stesso non lo si possa dire – anche – con riferimento ai dati sintetici, tanto più alla luce dei progressi dell’AI?).
Profili di responsabilità e liability nel settore sanitario
Rimangono inoltre aperti, sullo sfondo, i profili di responsabilità: per i produttori del sistema di AI (quale liability per un sistema che produca dati affetti da bias?); come – forse – anche per gli utilizzatori (nel caso, ad esempio, di una Company che sviluppi un nuovo farmaco anche attraverso i risultati ottenuti tramite dataset sintetici).
Quid iuris, invece, a livello normativo-dispositivo?
Quadro normativo: GDPR, AI Act ed EHDS
Mentre il GDPR, pur offrendo alcune coordinate ermeneutiche (attraverso i Considerando 26 e 29; o comunque avendo riguardo ai generali principi di liceità e sicurezza del trattamento), l’AI Act compie un salto qualitativo:
- all’art. 10, par. 5 lett. a) legittima l’uso di dati sintetici quale misura di debiasing nei sistemi ad alto rischio;
- all’art. 52 impone una disclosure dei contenuti generati, salvo esenzioni per l’anonimizzazione sanitaria;
- mentre al Considerando 133 pone l’accento sui rischi all’ecosistema informativo derivanti dai dati sintetici (rischi di cattiva informazione e manipolazione su vasta scala, frode, impersonificazione e inganno dei consumatori).
Da segnalarsi anche il recentemente pubblicato Regolamento istitutivo dell’EHDS, al cui orizzonte si profila una convergenza tra cybersecurity e data governance, che espressamente prevede – indicativamente per marzo 2029 – l’entrata in vigore delle parti del Regolamento relative allo scambio del primo gruppo di categorie prioritarie di dati sanitari (tra cui profili sanitari sintetici dei pazienti); mentre a livello nazionale sembra opportuno attendere, prima di altre e più dettagliate considerazioni, l’approvazione anche alla Camera del DDL AI[13].
Applicazioni pratiche in ambito clinico e ospedaliero
In termini pratico-applicativi, in ogni caso, i dati sintetici hanno conosciuto diversi impieghi:
- nelle politiche sanitarie (per simulazioni sull’invecchiamento demografico); nel NLP clinico (diagnosi in salute mentale);
- come nella simulazione real-time di scenari complessi (in particolare per modelli ospedalieri e patient-specific, permettendo di ottimizzare percorsi operativi e costi di efficienza)[14];
- confermando quindi come sia opportuno (necessario) continuare ad investirvi.
Prospettive regolatorie: differential privacy e blockchain
In prospettiva regolatoria, alcuni studi hanno evidenziato i potenziali benefici derivanti dalla cosiddetta Differential Privacy, emerso nel settore sanitario quale standard matematico dotato di particolare robustezza (l’integrazione in GAN del framework PATE[15], con costituzione del PATE-GAN, coniuga elevata somiglianza dati-reali con formali garanzie di differential privacy)[16]; così come si è evidenziata la possibilità di creare una catena di custodia digitale basata su registri immutabili (es. blockchain) per tracciare generazione, condivisione, storage e distruzione dei dataset sintetici[17].
Conclusioni: il futuro dei dati sintetici sanitari
In conclusione, una provocazione: perché non costituire – anche livello europeo – un ente terzo certificato, sottoposto a vigilanza EDPS/EDPB, che possa supervisionare – anche solo ex post – il workflow di sintetizzazione?
Potrebbe garantire un approccio orientato alla differential privacy, con budget e risorse pubbliche; watermarking dei record; fungendo inoltre da pivot istituzionale, riequilibrando l’asimmetria informativa tra sviluppatori di modelli e titolari dei dati primari.
Il dato sintetico non è un surrogato ancillare del dato tradizionale, ma un nuovo linguaggio matematico‑normativo capace di descrivere (anche) la realtà clinica. La sua legittimazione dipenderà dall’armonizzazione tra rigore metodologico, ingegneria della privacy e accountability multilivello: un ulteriore – ennesimo – campo di gioco per l’ecosistema digitale e regolatorio europeo, che mostra sin d’ora la necessità di sposare (e non soffocare, sotto il peso dell’hard-law) l’innovazione data‑driven.
Note
[1] https://www.edps.europa.eu/press-publications/publications/techsonar/synthetic-data_en.
[2] Che altro non era se non lo scopo di Donald B. Rubin quando, nel 1993, introdusse per la prima volta il concetto di “dato sintetico” nella letteratura e nella pratica dei sistemi di AI, “producendo” artigianalmente un dataset avente le medesime caratteristiche statistiche del complesso di dati reali di cui disponeva (D. B. Rubin, Discussion Statistical Disclosure Limitation, in Journal of Official Statistics, 1993, 461 ss; ove tali dati vengono definiti come “costruiti utilizzando [un sistema di] imputazione multipla, in modo da poter essere validamente analizzati utilizzando software statistici standard”).
[3] Pur nota comunque la sempreverde necessità di eseguire una previa valutazione di garanzia della tutela del dato per assicurarsi che i dati sintetici risultanti dalle operazioni di sintesi non siano in alcun modo indentificati (rectius: identificabili) come dati personali reali: tale valutazione avrà riguardo necessariamente alla misura in cui gli interessati possono essere identificati attraverso dati sintetici e a quali e quante nuove informazioni su tali interessati verrebbero rivelate in caso di effettiva identificazione.
[4] Più precisamente nel 2014, ad opera principalmente di Ian Goodfellow (I. J. Goodfellow et al., Generative Adversarial Networks, su arXiv:1406.2661, Cornell University, 2014).
[5] Tra le GAN più note vi sono quelle per la generazione di immagini: MidJourney e Dall-E tra tutte.
[6] https://www.timanalytics.eu/TimTechPublic/dashboard/index.jsp#/space/s_1836?ds=224919.
[7] Statista (https://www.statista.com/statistics/871513/worldwide-data-created/).
[8] S. Nikolenko, Synthetic Data for Deep Learning, Cham, 2021, 12. Diverse le ragioni: tra queste la manuale etichettatura dei dati per l’apprendimento automatico, la carenza di dati specifici per determinati settori o applicazioni, o ancora possibili ostacoli nell’accessibilità ai dati medesimi (così V. Cavani, Dati sintetici: quando l’intelligenza artificiale apprende da se stessa…, in DPCE Online, 2/2024).
[9] B. Albrecht et. al., 10 new trends in life sciences analytics & digital, in McKinsey&Company, 2023, per cui tra le maggiori sfide di settore vi è la carenza di dati di qualità.
[10] Quantomeno per la fase di output; mentre è di tutta evidenza come le operazioni di sintesi strumentali alla creazione dei dati sintetici rientrino, invece, nell’alea applicativa del “trattamento” sui dati originali, così come definito dal GDPR.
[11] E. C. Raffiotta, Intelligenza artificiale e dati sintetici: quando la tecnologia può diventare strumento a supporto della tutela dei diritti, su BioLaw Journal – Rivista di Biodiritto, n. 3/2024, per cui “i dati sintetici condurranno verso la creazione di un “ecosistema digitale più sicuro, etico e rispettoso dei diritti fondamentali degli individui”.
[12] G. Cappellaro, M. Gervasi, AI e dati sintetici cambieranno la Sanità, ma solo con le giuste regole, su Agendadigitale.eu, 22 novembre 2023.
[13] Recentemente sul punto M. Masnada, G. Mariuz, I dati personali tra sanità e ricerca: tutela o illusione?, su Econopoly, ilSole24Ore, 29 aprile 2025.
[14] M. Giuffè, D. L. Shung, Harnessing the power of synthetic data in healthcare: innovation, application, and privacy, in npj Digital Medicine, 2023.
[15] Private Aggregation of Teacher Ensembles.
[16] J. Jordon, J. Yoon, M. Van Der Schaar, PATE-GAN: Generating synthetic data with differential privacy guarantees, in International conference on learning representations, 2019.
[17] M. Giuffrè, cit.