- Una nuova ricerca di Stanford e Yale mostra che i grandi modelli linguistici non solo “imparano”, ma archiviano e riproducono testualmente il contenuto dei libri.
- È stato scoperto che 4 modelli popolari, tra cui GPT di OpenAI, Claude di Anthropic, Gemini di Google e Grok di xAI, memorizzano contenuti protetti da copyright.
- Se sollecitato correttamente, Claude è stato in grado di riprodurre quasi interamente Harry Potter e la pietra filosofale, Il grande Gatsby, 1984 e Frankenstein.
- Sono stati testati in totale 13 libri, molti dei quali hanno visto l’estrazione di migliaia di parole quasi alla lettera.
- Questo fenomeno è chiamato “memorizzazione”, contrariamente alle precedenti affermazioni delle aziende di IA secondo cui i modelli non salvano copie dei dati di addestramento.
- OpenAI e Google avevano affermato che i modelli salvano solo “pattern” linguistici, non conservando il contenuto originale.
- In realtà, gli LLM funzionano come una forma di compressione con perdita, simile a MP3 o JPEG, comprimendo i dati ma mantenendo il nucleo.
- Un tribunale in Germania ha paragonato ChatGPT a un file compresso e ha emesso una sentenza sfavorevole a OpenAI nella causa intentata dalla GEMA.
- È stato scoperto che anche i generatori di immagini AI come Stable Diffusion riproducono immagini quasi identiche agli originali.
- I modelli possono copiare non solo le parole ma anche la struttura, le immagini e lo stile artistico.
- Altre ricerche mostrano che l’8-15% dei contenuti generati dagli LLM esiste già testualmente sul web.
- Ciò apre enormi rischi legali, che potrebbero costringere l’IA a essere ritirata dal mercato o riaddestrata da zero.
- Sebbene Sam Altman difenda il “diritto all’apprendimento” dell’IA, i ricercatori sostengono che il confronto con gli esseri umani sia fuorviante.
- Gli esperti ritengono che la memorizzazione sia una caratteristica intrinseca, non un bug raro.
📌 Una nuova ricerca delle università di Stanford e Yale mostra che i grandi modelli linguistici non solo “imparano”, ma archiviano e riproducono testualmente il contenuto dei libri. Questa scoperta scuote le fondamenta teoriche dell’industria dell’IA generativa. Invece di “imparare” come gli esseri umani, i modelli operano comprimendo e recuperando dati, portando al rischio di violazione del copyright su larga scala. Se i tribunali considerassero i modelli di IA come copie illegali, l’industria potrebbe affrontare multe per miliardi di dollari ed essere costretta a ristrutturare l’intero modo di sviluppare l’IA in futuro.
