- 斯坦福大学和耶鲁大学的新研究表明,大语言模型不仅是在“学习”,还在存储和逐字逐句地再现书籍内容。
- OpenAI的GPT、Anthropic的Claude、谷歌的Gemini和xAI的Grok这四个流行模型被发现记住了受版权保护的内容。
- 在得到正确提示的情况下,Claude能够几乎完整地再现《哈利·波特与魔法石》、《了不起的盖茨比》、《1984》和《弗兰肯斯坦》。
- 共有13本书接受了测试,许多书中有数千字被几乎原封不动地提取出来。
- 这种现象被称为“记忆化”(memorization),这与AI公司此前声称模型不存储训练数据副本的说法相矛盾。
- OpenAI和谷歌曾断言,模型只保存语言“模式”,不保留原始内容。
- 实际上,大语言模型(LLM)的运作方式就像一种有损压缩,类似于MP3或JPEG,压缩数据但保留核心部分。
- 德国一家法院曾将ChatGPT比作压缩文件,并在GEMA提起的诉讼中做出了对OpenAI不利的裁决。
- 像Stable Diffusion这样的AI图像生成器也被发现能生成与原图几乎一样的图像。
- 模型不仅可以复制措辞,还可以复制结构、图像和艺术风格。
- 其他研究表明,LLM生成的8-15%的内容已原封不动地存在于网络上。
- 这带来了巨大的法律风险,可能导致AI被迫退出市场或从头开始重新训练。
- 尽管Sam Altman通过AI的“学习权”进行辩护,但研究界认为与人类进行比较具有误导性。
- 专家认为,记忆化是一种固有的特性,而非罕见的错误。
📌 斯坦福大学和耶鲁大学的新研究表明,大语言模型不仅是在“学习”,还在存储和逐字逐句地再现书籍内容。这一发现动摇了生成式AI行业的理论基础。模型并非像人类一样“学习”,而是通过压缩和检索数据来运行,从而导致大规模侵犯版权的风险。如果法院将AI模型视为非法复制品,该行业可能面临数十亿美元的罚款,并被迫重构未来AI的整个开发方式。
