- Новое исследование Стэнфорда и Йеля показывает, что большие языковые модели не просто «учатся», но хранят и воспроизводят содержание книг дословно.
- Было обнаружено, что 4 популярные модели, включая GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI, запоминают контент, защищенный авторским правом.
- При правильном запросе Claude смог воспроизвести почти полностью «Гарри Поттера и философский камень», «Великого Гэтсби», «1984» и «Франкенштейна».
- Всего было протестировано 13 книг, из многих были извлечены тысячи слов почти дословно.
- Этот феномен называется «запоминанием» (memorization), что противоречит прежним заявлениям ИИ-компаний о том, что модели не хранят копии обучающих данных.
- OpenAI и Google утверждали, что модели сохраняют только языковые «паттерны», а не оригинальный контент.
- На самом деле LLM работают как форма сжатия с потерями, подобно MP3 или JPEG, сжимая данные, но сохраняя суть.
- Суд в Германии сравнил ChatGPT со сжатым файлом и вынес неблагоприятное для OpenAI решение по иску GEMA.
- Генераторы изображений ИИ, такие как Stable Diffusion, также были уличены в воспроизведении изображений, почти идентичных оригиналам.
- Модели могут копировать не только формулировки, но и структуру, образы и художественный стиль.
- Другое исследование показывает, что 8–15% контента, созданного LLM, уже существует в интернете в неизменном виде.
- Это открывает огромные юридические риски, которые могут привести к тому, что ИИ будет вынужден уйти с рынка или пройти обучение с нуля.
- Хотя Сэм Альтман защищает «право на обучение» ИИ, исследователи считают сравнение с людьми вводящим в заблуждение.
- Эксперты утверждают, что запоминание — это врожденная характеристика, а не редкая ошибка.
📌 Новое исследование университетов Стэнфорда и Йеля показывает, что большие языковые модели не просто «учатся», но хранят и воспроизводят содержание книг дословно. Это открытие подрывает теоретическую основу индустрии генеративного ИИ. Вместо того чтобы «учиться», как люди, модели работают путем сжатия и извлечения данных, что ведет к риску нарушения авторских прав в огромных масштабах. Если суд признает модель ИИ незаконной копией, индустрия может столкнуться со штрафами в миллиарды долларов и будет вынуждена полностью перестроить способы разработки ИИ в будущем.

