L’avvento dell’intelligenza artificiale generativa ha rivoluzionato il panorama della creazione e dell’accesso ai contenuti digitali. Modelli come:
apprendono dai dati disponibili in rete, che includono spesso opere protette da diritto d’autore. Questa nuova fase dell’era digitale solleva interrogativi cruciali sul bilanciamento tra diritto d’autore e innovazione tecnologica.
Indice degli argomenti
Fair use statunitense e text data mining europeo: due modelli a confronto
I due approcci giuridici contrapposti presenti rispettivamente nella cultura giuridica degli U.S.A. e in quella dei paesi dell’Unione Europea emergono con chiarezza: essi sono da un lato, il fair use statunitense, dottrina flessibile di origine giurisprudenziale; dall’altro, l’eccezione del Text and Data Mining (TDM) introdotta dalla Direttiva (UE) 2019/790 (DSM).
Un recente studio dell’EUIPO (pubblicato nel mese di maggio 2025) dal titolo “The Development of Generative AI from a Copyright Perspective“[1], evidenzia come queste differenze normative possano condurre a conflitti di giurisdizione e a grande incertezza per gli sviluppatori dei modelli di intelligenza artificiale, per gli autori delle opere creative e per gli stessi loro utenti.
La direttiva DSM e l’eccezione per il text data mining nell’Unione europea
La Direttiva DSM ha infatti introdotto al suo art. 4[2] un’eccezione obbligatoria per il Text and Data Mining, applicabile a condizione che l’accesso ai dati sia legittimo e non sia stato esercitato l’opt-out esplicito da parte del titolare dei diritti che ne esclude la legittimità dell’utilizzo. L’obiettivo è quello di favorire la ricerca, l’innovazione e lo sviluppo dell’intelligenza artificiale, garantendo al contempo la protezione delle opere.
La causa fra Kneschke contro LAION, decisa dal Tribunale Regionale di Amburgo il 27 settembre 2024[3], rappresenta un importante precedente in materia di utilizzazione dei dati in seno ai sistemi di intelligenza artificiale nell’Unione Europea: l’agenzia fotografica Kneschke aveva infatti contestato in giudizio l’uso di una propria immagine fotografica nell’ambito del dataset di LAION, che quest’ultima aveva utilizzato per addestrare i propri modelli di IA in carenza del consenso del titolare dei diritti.
Il giudice ha stabilito che l’opzione di esclusione dell’eccezione di TDM (opt-out) poteva considerarsi validamente esercitata dall’agenzia attraverso la pubblicazione delle condizioni generali d’uso del proprio sito web, redatte in linguaggio naturale.
Questo precedente giurisprudenziale, favorevole ai titolari dei diritti, rafforza in ogni caso la necessità da parte di questi ultimi di adottare una gestione contrattuale chiara e vincolante circa le condizioni applicabili agli utenti e ai soggetti che acquisiscono i contenuti protetti dei dataset. La prescrizione dell’opt-out chiaramente manifestato dimostra che l’Unione Europea attribuisce pieno valore alla volontà dell’autore, anche se espressa al di fuori di un atto di diniego che sia direttamente e univocamente strutturato.
Proposte Euipo per database pubblici e copyright knowledge centre
L’EUIPO, nel proprio documento sopra ricordato, suggerisce per il futuro la creazione di database pubblici contenenti materiali di cui sia autorizzato l’uso, anche per allenare i modelli di intelligenza artificiale, oltre che prevede l’istituzione di un “Copyright Knowledge Centre” volto a facilitare la compliance al volere espresso dai titolari dei diritti circa il trattamento dei loro contenuti.
Fair use americano nell’intelligenza artificiale: il caso Meta e gli autori
Negli Stati Uniti, come noto, la dottrina del fair-use[4] si basa su quattro fattori: la finalità dell’uso, la natura dell’opera, la quantità del materiale utilizzato e l’impatto dell’opera trasformativa realizzata sul mercato dell’originale. Un’indagine sulla presenza di questi fattori nell’impiego di un’opera protetta altrui consente un’interpretazione elastica ma imprevedibile circa il giudizio di sussistenza di un fair-use ai fini dell’addestramento dei modelli di IA, come dimostra la causa in corso tra Meta e un gruppo di autori, tra cui Richard Kadrey, nonché la meno nota, ma altrettanto importante controversia, che vede opposti in una class-action gli autori di opere letterarie capitanati da Andrea Bartz alla Anthropic PCB, l’impresa che gestisce il modello di intelligenza artificiale denominato “Claude,” oggetto di una recente decisione dei giudici del Distretto Nord della California[5].
In questo caso, gli attori accusano Meta di aver utilizzato opere letterarie protette per addestrare LLaMA, un modello linguistico open source. Meta sostiene che l’uso da essa fatto delle opere altrui sia “non-consumptive” e trasformativo, e quindi rientri nel fair-use. Tuttavia, il giudice ha espresso scetticismo sul punto: “I just don’t understand how that can be fair use“, ha detto, lasciando intendere che l’uso di interi archivi di materiale protetto dal diritto d’autore senza il consenso dei rispettivi titolari potrebbe non rientrare nell’eccezione creata dalla casistica giudiziaria statunitense.
New York Times contro OpenAI: limiti del fair use nell’era dell’intelligenza artificiale
Un’altra controversia avente ad oggetto l’intelligenza artificiale impiegata attraverso l’uso di library di terze imprese è il caso che vede contrapposto The New York Times contro OpenAI e Microsoft[6]: in tale causa l’editore del quotidiano newyorkese accusa le aziende che sviluppano i modelli di IA di avere impiegato contenuti giornalistici protetti per addestrare i loro modelli linguistici, con potenziale danno al mercato dell’informazione. Questo contenzioso evidenzia i limiti di una dottrina di origine giurisprudenziale, quella del fair-use che, sebbene molto evoluta a seguito dei ripetuti interventi dei giudici e della stessa Suprema Corte, rischia di diventare terreno fertile per forme di appropriazione dei contenuti da parte delle aziende del settore tecnologico.
Rischi del fair use come alibi per eludere il diritto d’autore nell’intelligenza artificiale
Secondo quanto in precedenza rilevato (si veda quanto scritto nei brani in nota 4 e in nota 5), il fair use sta diventando per alcuni attori del settore tech un alibi giuridico per eludere i diritti d’autore.
In particolare, l’impiego di opere editoriali per addestrare l’intelligenza artificiale generativa avviene, nella gran parte dei casi, in assenza di accordi di licenza, senza informare o compensare gli autori.
Il rischio è che si crei un mercato parallelo a quello legittimo, in cui i modelli linguistici offrono contenuti generati a partire da testi protetti, riducendo il valore economico delle opere originali. Questo problema è acuito dall’assenza di trasparenza sui dataset utilizzati da molti degli sviluppatori di modelli di IA: in molti casi, le fonti impiegate non sono rese pubbliche, e ciò compromette ogni tentativo di verifica, come pure le possibili contrattazioni da parte degli aventi diritto.
Differenze strutturali tra fair use e text data mining nel diritto d’autore
Uno degli snodi più rilevanti nel confronto tra i due sistemi giuridici, statunitense ed europeo, riguarda le differenze strutturali che sussistono tra il fair-use statunitense e l’eccezione TDM europea, che si riflettono in alcuni aspetti fondamentali della materia che di seguito esamineremo.
Origine giurisprudenziale del fair use versus codificazione europea del text data mining
Avuto riguardo all’origine dei due sistemi di diritto in esame comparato, il fair-use è una costruzione giurisprudenziale fondata sull’equilibrio tra la libertà di espressione basata sul Primo Emendamento della Carta costituzionale degli U.S.A. e la tutela economica dei diritti spettanti agli autori.
Si tratta di un criterio giuridico evolutivo ed elastico in quanto esso dipende fortemente dall’interpretazione data caso per caso dai giudici, tenuto conto del vincolo cui essi sono tenuti sulla scorta delle sentenze precedenti. L’eccezione del Text and Data Mining, invece, è codificata in norme positive: gli articoli 3 e 4 della Direttiva DSM, che stabiliscono condizioni specifiche per un utilizzo lecito dei contenuti protetti estratti da banche di dati disponibili al pubblico.
Campi di applicazione: usi commerciali nel fair use e limiti europei del text data mining
Anche i campi di applicazione delle due discipline rispettivamente statunitense e comunitaria europea sono diversi.
Negli Stati Uniti, il fair-use copre una vasta gamma di utilizzi, inclusi quelli a fini commerciali, qualora essi siano considerati trasformativi. Nell’Unione Europea, l’eccezione TDM si applica primariamente a fini di ricerca scientifica e di sviluppo tecnologico, e non copre gli usi commerciali se essi non sono accompagnati da licenze esplicite.
Trasparenza dei dati e libertà contrattuale: differenze tra usa e unione europea
Il fair-use statunitense non impone obblighi di trasparenza sulle fonti dei dati usati per l’addestramento dei modelli, nell’Unione Europea, invece, la trasparenza è incentivata da linee guida pubbliche e dalla spinta verso la creazione di fonti (c.d. repository) autorizzate. L’assenza di trasparenza nella provenienza dei dati, nel contesto europeo, può costituire un elemento a sfavore della liceità del trattamento, lo stesso non è necessariamente vero negli Stati Uniti.
Opt-out europeo versus limitazioni contrattuali americane nel diritto d’autore
In base al principio della libertà contrattuale vigente negli U.S.A., attraverso i contratti possono essere rafforzati o limitati i margini del fair-use, ma gli accordi stessi non ne possono escludere l’applicabilità.
Nell’Unione Europea, invece, l’unico modo per impedire il ricorso all’eccezione del TDM è quello di esercitare un opt-out chiaro e inequivocabile. Il caso Kneschke ha dimostrato che anche una semplice clausola delle condizioni generali di contratto, formulata in linguaggio naturale, può essere considerata legalmente vincolante dai giudici. Il fair-use risulta poi fortemente imprevedibile: casi fra loro simili possono ricevere trattamenti diversi e financo opposti a seconda del tribunale adito.
Al contrario, il sistema giuridico comunitario europeo, mira a garantire una maggiore certezza giuridica grazie alla codificazione normativa e all’interpretazione conforme alle norme data dai giudici nazionali e da quelli sovranazionali.
Panorama internazionale: l’eccezione di TDM nel Regno Unito e Giappone
Un ulteriore sguardo al panorama della materia a livello internazionale ci mostra che nel Regno Unito, soprattutto dopo la Brexit, è stata mantenuta nel sistema giuridico di Common-Law inglese, un’eccezione di TDM simile a quella in essere nell’Unione Europea, seppure siano in fase di elaborazione delle aperture che consentano il ricorso a tale eccezione anche per usi commerciali.
L’IPO (Intellectual Property Office) dello United Kingdom ha infatti proposto una riforma normativa che consenta di applicare l’eccezione di TDM anche per fini commerciali, purché il ricorso all’acquisizione dei dati contenuti nei dataset sia accompagnato da adeguati meccanismi di licenza[7]. Tale ipotesi ha peraltro suscitato forti critiche da parte del settore editoriale che ne contrasta l’approvazione.
Il Giappone, invece, ha adottato un approccio più permissivo rispetto al testo studiato dall’IPO inglese: la sua normativa sul diritto d’autore permette il Text and Data Mining per qualsiasi scopo, anche commerciale, purché l’uso non implichi un’espressa riproduzione dell’opera originale: questo rende il Giappone uno degli ordinamenti più favorevoli all’addestramento dell’IA, attirando le attenzioni delle Big Tech[8].
Varietà di approcci globali al diritto d’autore nell’intelligenza artificiale
Gli aspetti regolamentari sopra tratteggiati evidenziano come non esista una soluzione unica al tema dell’utilizzazione dei dati per addestrare i modelli di intelligenza artificiale, ma vi sia una varietà di approcci che oscillano tra una tutela forte degli autori e un’apertura all’innovazione senza grandi difese per i titolari dei diritti, ognuno di essi con i propri rischi e i propri vantaggi.
Riassumendo, le sopraelencate evidenti differenze strutturali e culturali tra i due principali sistemi normativi, statunitense e comunitario europeo, danno chiare evidenze circa il fatto che ordinamenti giuridici così differenti sono suscettibili di generare tensioni politiche, conflitti giurisdizionali e scenari di rischio: avuto riguardo a tale ultimo aspetto di criticità, quello principale riguarda il ricorso esteso al c.d. “forum shopping”, in base al quale gli attori scelgono di portare i contenziosi davanti alla giurisdizione a loro più favorevole. Ciò comporta una valutazione – ad esempio – di quale possa essere l’impatto delle decisioni dei giudici europei oltre i confini dell’Unione, possibilità che si pone tutte le volte in cui i contenuti siano accessibili in rete da parte di soggetti comunitari europei e viceversa, cosa accada quando le sentenze dei giudici d’oltremare incidano sui diritti d’autore delle imprese titolari situate nell’UE.
Tale potenziale e per nulla remoto rischio di conflitti di giurisdizione[9] dovrebbe costituire un incentivo per lo sviluppo di accordi volontari tra “Tech companies” e titolari dei diritti, attraverso la stipula di contratti di licenza.
Armonizzazione internazionale: ruolo di Wipo e Wto nel diritto d’autore per intelligenza artificiale
In futuro, un’armonizzazione tra i diversi approcci giuridici potrebbe passare attraverso il coinvolgimento di organismi sovranazionali come la WIPO (World Intellectual Property Organization, o OMPI) e la WTO (World Trade Organization), che già svolgono un ruolo centrale nel coordinare le normative internazionali sul diritto d’autore. La WIPO, in particolare, potrebbe diventare l’organo deputato a stabilire principi minimi condivisi in materia di intelligenza artificiale e di diritti di proprietà intellettuale, anche mediante l’elaborazione di trattati multilaterali o di raccomandazioni che facilitino la convergenza regolatoria fra Stati. Allo stesso modo, l’Organizzazione Mondiale del Commercio potrebbe contribuire a disciplinare l’impatto dell’uso di dataset che siano oggetto di sfruttamento cross-border, evitando il rischio di conflitti fra giurisdizioni e l’apposizione di barriere tecnologiche da parte dei detentori di modelli avanzati di intelligenza artificiale.
AI Act europeo e codici di condotta per dataset nell’intelligenza artificiale
A livello dell’Unione Europea, il rafforzamento del quadro normativo potrebbe passare attraverso l’implementazione dell’AI Act, che introduce obblighi di trasparenza, valutazione del rischio e di tracciabilità per i sistemi di intelligenza artificiale, con implicazioni dirette anche per i modelli generativi addestrati su dati protetti dal diritto d’autore. La creazione di codici di condotta specifici per i dataset, come auspicato dall’EUIPO nel sopra ricordato documento, potrebbe offrire linee guida concrete per sviluppatori e titolari di diritti, facilitando l’adozione di soluzioni tecniche come il watermarking, la creazione di licenze machine-readable e di sistemi di opt-out automatici.
Limiti del fair use americano e approccio europeo
Il fair-use americano ha garantito per anni una valvola di sfogo all’innovazione, permettendo lo sviluppo di tecnologie rivoluzionarie come i motori di ricerca, le biblioteche digitali e gli aggregatori di contenuti.
Tuttavia, l’utilizzo indiscriminato di tale dottrina da parte di aziende che addestrano i modelli di intelligenza artificiale su larga scala ha evidenziato i suoi limiti: in particolare, la mancanza di obblighi di trasparenza e la difficoltà di compensare gli autori penalizzano l’equilibrio tra creatività individuale e innovazione collettiva.
L’approccio europeo, più normativo e strutturato, ha il pregio di garantire una maggiore chiarezza e tutela per gli autori, ma necessita di infrastrutture solide, come di banche di dati dei contenuti disponibili per il TDM, standard comuni per le licenze e interoperabilità tra piattaforme.
La costruzione di una filiera legale e tecnologica per l’accesso e l’uso dei dati sarà la sfida dei prossimi anni: dalla semplificazione dei processi di opt-out alla gestione dei diritti collettivi tramite società di collecting. È altresì auspicabile l’introduzione di forme di compensazione equa per gli autori le cui opere vengono utilizzate nell’addestramento dei modelli di intelligenza artificiale, anche attraverso fondi di redistribuzione sostenuti da contributi provenienti dalle Big Tech, sul modello della copia privata o della remunerazione derivante dal diritto di prestito bibliotecario.
Equilibrio futuro tra diritto d’autore e sviluppo dell’intelligenza artificiale
In definitiva, la chiave per trovare una soluzione del problema è quella di trovare un punto di equilibrio fra i diversi player del settore che tuteli gli autori senza soffocare lo sviluppo tecnologico. Questo equilibrio non potrà essere imposto unilateralmente da un determinato ordinamento giuridico, ma richiederà un dialogo strutturato e continuo tra le parti: sviluppatori di apparati di IA, titolari dei diritti, istituzioni pubbliche e organismi internazionali. Solo attraverso strumenti di licensing innovativi, soluzioni tecniche interoperabili e una governance suddivisa su più livelli l’intelligenza artificiale potrà evolversi in modo equo, sostenibile e conforme ai principi del diritto d’autore globale.
Lo ripetiamo: la chiave di volta per superare le distanze esistenti sul piano giuridico è data dalla possibilità di individuare un punto di equilibrio che tuteli gli autori senza incidere negativamente sullo sviluppo tecnologico: ciò può avvenire solo attraverso un dialogo costruttivo tra tutte le parti coinvolte, allo scopo di trovare una governance internazionale condivisa dell’intelligenza artificiale generativa.
Note
[1] Qui si trova il testo dello studio svolto dall’EUIPO: https://euipo.europa.eu/tunnel-web/secure/webdav/guest/document_library/observatory/documents/reports/2025_GenAI_from_copyright_perspective/2025_GenAI_from_copyright_perspective_FullR_en.pdf
[2] Una nota a commento della questione si trova a questo collegamento ipertestuale: https://academic.oup.com/oxford-law-pro/book/39840/chapter-abstract/339979929?redirectedFrom=fulltext&login=false
[3] Qui è presente un commento sul tema da parte di Agenda Digitale: https://www.agendadigitale.eu/mercati-digitali/foto-digitali-non-tutte-meritano-la-tutela-del-diritto-dautore-nellera-dellia/
[4] Il tema è stato di recente trattato in questo articolo:
[5] Sull’argomento ulteriori riflessioni si ricavano da questo brano: https://www.agendadigitale.eu/mercati-digitali/libri-e-ai-e-se-il-fair-use-diventasse-lalibi-della-pirateria-digitale/
Va osservato che oltre che nel caso Kadrey et al. vs. Meta Platforms Inc. di cui alla nota n. 4, nella causa per violazione del diritto d’autore, avviata di fronte ai giudici del Distretto Settentrionale della California, che coinvolge gli autori Bartz et al. vs. Anthropic PBC, all’udienza del 22 maggio 2025, il giudice il giudice William Alsup ha dichiarato di essere “intenzionato a dichiarare che (Anthropic) ha violato il Copyright Act (nell’acquisire materiale pirata per addestrare i propri modelli di IA), ma che gli usi successivi (di utilizzazione del materiale protetto da copyright) costituiscono fair use. Questa presa di posizione del giudice, espressa in udienza, si è trasfusa nell’”Order on Fair-Use” del 23 giugno 2025, con cui il magistrato, dopo avere dato atto che il modello di intelligenza artificiale “Claude” non ha riprodotto lo stile espressivo degli autori utilizzando algoritmi atti a prevenire “rigurgiti” di contenuti protetti, limitandosi invece a fornire il testo sintattico e grammaticale derivante dalle opere utilizzate per l’addestramento del suo apparato, ha dato in tal modo vita a un uso trasformativo delle opere che può essere fatto rientrare negli utilizzi consentiti dalla dottrina del “Fair-Use”.
Nelle 32 pagine della decisione sul Summary Judgment pendente fra le parti il magistrato ha evidenziato che gli “autori non hanno il diritto di impedire ad alcuno di leggere i loro libri ai fini di addestramento e di apprendimento”. Seppure sia giusto che si paghi un correspettivo per la lettura di un libro – ha soggiunto l’estensore – è invece impensabile che debba essere versato un compenso per quanto viene memorizzato, desunto o sviluppato sulla scorta di tale lettura. Di contro, ha osservato il giudice, prima di acquistare le opere letterarie per la propria biblioteca centralizzata, Anthropic ha scaricato dalla rete oltre a sette milioni di copie pirata di opere protette, senza corrispondere alcunché agli aventi diritto, e le ha trattenute nella propria biblioteca anche dopo che essa aveva deciso che non le avrebbe ulteriormente usate. Tale azione, quella di impossessarsi delle opere letterarie a discrezione del gestore del modello di intelligenza artificiale, sarebbe potenzialmente in grado di distruggere il mercato editoriale, così come ha scritto in atti la stessa convenuta. In base ad un’analisi puntuale dei criteri applicabili alla determinazione della liceità o meno dell’uso trasformativo delle opere in base ai criteri illustrati sinteticamente nel testo di questo articolo, l’ordine del giudice ha negato che l’utilizzazione di copie contraffatte dei libri oggetto di possesso e di eventuale trattamento da parte dei modelli di IA possa essere considerato lecito. Di conseguenza, solo l’utilizzo trasformativo di opere legittimamente acquisite può essere definito legittimo alla stregua del “Fair-Use”, mentre ciò non può essere validamente invocato per le copie pirata incamerate da Anthropic per le quali il procedimento giudiziale dovrà proseguire con un la fase dinanzi alla giuria per determinare la misura dei danni da liquidare agli autori.
[6] Una sintesi della vicenda è stata pubblicata a questo link: https://www.agendadigitale.eu/mercati-digitali/ia-e-diritto-dautore-regole-e-accordi-per-il-futuro-dei-media-le-tendenze-in-atto/
[7] Lo Studio Legale Dentons fornisce una sintesi della situazione del TDM nello United Kingdom qui: https://www.dentons.com/en/insights/articles/2025/january/2/the-uks-new-ai-copyright-consultation-a-path-to-clarity-or-controversy
[8] Un testo aggiornato sulla normativa giapponese in materia di intelligenza artificiale e diritto d’autore è rinvenibile qui: https://www.privacyworld.blog/2024/03/japans-new-draft-guidelines-on-ai-and-copyright-is-it-really-ok-to-train-ai-using-pirated-materials/
[9] Sul punto si trovano alcuni approfondimenti in questo articolo: https://ntplusdiritto.ilsole24ore.com/art/la-giurisdizione-rete-porte-aperte-un-potenziale-conflitto-poteri-livello-planetario-AE7IRaNC