- Une nouvelle étude de Stanford et Yale montre que les grands modèles de langage ne se contentent pas d’« apprendre », mais stockent et reproduisent textuellement le contenu des livres.
- Quatre modèles populaires, dont GPT d’OpenAI, Claude d’Anthropic, Gemini de Google et Grok de xAI, ont été surpris en train de mémoriser du contenu protégé par le droit d’auteur.
- Lorsqu’il est correctement sollicité, Claude a pu reproduire la quasi-totalité de Harry Potter à l’école des sorciers, Gatsby le Magnifique, 1984 et Frankenstein.
- Au total, 13 livres ont été testés, dont beaucoup ont vu des milliers de mots extraits presque textuellement.
- Ce phénomène est appelé « mémorisation », contredisant les affirmations précédentes des entreprises d’IA selon lesquelles les modèles ne stockent pas de copies des données d’entraînement.
- OpenAI et Google avaient affirmé que les modèles ne sauvegardent que des « modèles » linguistiques, sans conserver le contenu original.
- En réalité, les LLM fonctionnent comme une forme de compression avec perte, similaire au MP3 ou au JPEG, compressant les données mais conservant l’essentiel.
- Un tribunal en Allemagne a comparé ChatGPT à un fichier compressé et a rendu un jugement défavorable à OpenAI dans le procès intenté par la GEMA.
- Les générateurs d’images par IA comme Stable Diffusion ont également été surpris en train de reproduire des images presque identiques aux originaux.
- Les modèles peuvent copier non seulement le libellé, mais aussi la structure, les images et le style artistique.
- D’autres recherches montrent que 8 à 15 % du contenu généré par les LLM existent déjà textuellement sur le web.
- Cela ouvre d’énormes risques juridiques, pouvant conduire au retrait de l’IA du marché ou à son réentraînement complet.
- Bien que Sam Altman défende le « droit d’apprendre » de l’IA, les chercheurs estiment que la comparaison avec les humains est trompeuse.
- Les experts affirment que la mémorisation est une caractéristique inhérente, et non un bug rare.
📌 Une nouvelle étude des universités de Stanford et Yale montre que les grands modèles de langage ne se contentent pas d’« apprendre », mais stockent et reproduisent textuellement le contenu des livres. Cette découverte ébranle les fondements théoriques de l’industrie de l’IA générative. Au lieu d’« apprendre » comme les humains, les modèles fonctionnent en compressant et en récupérant des données, ce qui entraîne un risque de violation du droit d’auteur à grande échelle. Si les tribunaux considèrent les modèles d’IA comme des copies illégales, l’industrie pourrait faire face à des amendes de plusieurs milliards de dollars et être contrainte de restructurer entièrement la manière dont l’IA sera développée à l’avenir.
