• Una nuova ricerca di Stanford e Yale mostra che i grandi modelli linguistici non solo “imparano”, ma archiviano e riproducono testualmente il contenuto dei libri.
  • È stato scoperto che 4 modelli popolari, tra cui GPT di OpenAI, Claude di Anthropic, Gemini di Google e Grok di xAI, memorizzano contenuti protetti da copyright.
  • Se sollecitato correttamente, Claude è stato in grado di riprodurre quasi interamente Harry Potter e la pietra filosofaleIl grande Gatsby1984 e Frankenstein.
  • Sono stati testati in totale 13 libri, molti dei quali hanno visto l’estrazione di migliaia di parole quasi alla lettera.
  • Questo fenomeno è chiamato “memorizzazione”, contrariamente alle precedenti affermazioni delle aziende di IA secondo cui i modelli non salvano copie dei dati di addestramento.
  • OpenAI e Google avevano affermato che i modelli salvano solo “pattern” linguistici, non conservando il contenuto originale.
  • In realtà, gli LLM funzionano come una forma di compressione con perdita, simile a MP3 o JPEG, comprimendo i dati ma mantenendo il nucleo.
  • Un tribunale in Germania ha paragonato ChatGPT a un file compresso e ha emesso una sentenza sfavorevole a OpenAI nella causa intentata dalla GEMA.
  • È stato scoperto che anche i generatori di immagini AI come Stable Diffusion riproducono immagini quasi identiche agli originali.
  • I modelli possono copiare non solo le parole ma anche la struttura, le immagini e lo stile artistico.
  • Altre ricerche mostrano che l’8-15% dei contenuti generati dagli LLM esiste già testualmente sul web.
  • Ciò apre enormi rischi legali, che potrebbero costringere l’IA a essere ritirata dal mercato o riaddestrata da zero.
  • Sebbene Sam Altman difenda il “diritto all’apprendimento” dell’IA, i ricercatori sostengono che il confronto con gli esseri umani sia fuorviante.
  • Gli esperti ritengono che la memorizzazione sia una caratteristica intrinseca, non un bug raro.

📌 Una nuova ricerca delle università di Stanford e Yale mostra che i grandi modelli linguistici non solo “imparano”, ma archiviano e riproducono testualmente il contenuto dei libri. Questa scoperta scuote le fondamenta teoriche dell’industria dell’IA generativa. Invece di “imparare” come gli esseri umani, i modelli operano comprimendo e recuperando dati, portando al rischio di violazione del copyright su larga scala. Se i tribunali considerassero i modelli di IA come copie illegali, l’industria potrebbe affrontare multe per miliardi di dollari ed essere costretta a ristrutturare l’intero modo di sviluppare l’IA in futuro.

Share.
CONTATTI

Email: info@vietmetric.vn
Indirizzo: Numero 34, Vicolo 91, Via Tran Duy Hung, Quartiere Yen Hoa, Città di Hanoi

© 2026 Vietmetric
Exit mobile version