Шокирующий кризис: ИИ не учится, а запоминает и копирует книги

Новое исследование Стэнфорда и Йеля показывает, что большие языковые модели не просто «учатся», но хранят и воспроизводят содержание книг дословно.
Было обнаружено, что 4 популярные модели, включая GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI, запоминают контент, защищенный авторским правом.
При правильном запросе Claude смог воспроизвести почти полностью «Гарри Поттера и философский камень», «Великого Гэтсби», «1984» и «Франкенштейна».
Всего было протестировано 13 книг, из многих были извлечены тысячи слов почти дословно.
Этот феномен называется «запоминанием» (memorization), что противоречит прежним заявлениям ИИ-компаний о том, что модели не хранят копии обучающих данных.
OpenAI и Google утверждали, что модели сохраняют только языковые «паттерны», а не оригинальный контент.
На самом деле LLM работают как форма сжатия с потерями, подобно MP3 или JPEG, сжимая данные, но сохраняя суть.
Суд в Германии сравнил ChatGPT со сжатым файлом и вынес неблагоприятное для OpenAI решение по иску GEMA.
Генераторы изображений ИИ, такие как Stable Diffusion, также были уличены в воспроизведении изображений, почти идентичных оригиналам.
Модели могут копировать не только формулировки, но и структуру, образы и художественный стиль.
Другое исследование показывает, что 8–15% контента, созданного LLM, уже существует в интернете в неизменном виде.
Это открывает огромные юридические риски, которые могут привести к тому, что ИИ будет вынужден уйти с рынка или пройти обучение с нуля.
Хотя Сэм Альтман защищает «право на обучение» ИИ, исследователи считают сравнение с людьми вводящим в заблуждение.
Эксперты утверждают, что запоминание — это врожденная характеристика, а не редкая ошибка.

📌 Новое исследование университетов Стэнфорда и Йеля показывает, что большие языковые модели не просто «учатся», но хранят и воспроизводят содержание книг дословно. Это открытие подрывает теоретическую основу индустрии генеративного ИИ. Вместо того чтобы «учиться», как люди, модели работают путем сжатия и извлечения данных, что ведет к риску нарушения авторских прав в огромных масштабах. Если суд признает модель ИИ незаконной копией, индустрия может столкнуться со штрафами в миллиарды долларов и будет вынуждена полностью перестроить способы разработки ИИ в будущем.

What's Hot

Шокирующая роль инженеров «forward deployed»: неожиданное узкое место, определяющее, будет ли ИИ реально работать в бизнесе

“前哨部署”工程师的角色令人震惊：决定AI能否在企业中落地生根的关键瓶颈

ИИ может устранить «трения при принятии решений», которые тормозят бизнес

Шокирующий кризис: ИИ не учится, а запоминает и копирует книги

Шокирующая роль инженеров «forward deployed»: неожиданное узкое место, определяющее, будет ли ИИ реально работать в бизнесе

“前哨部署”工程师的角色令人震惊：决定AI能否在企业中落地生根的关键瓶颈

ИИ может устранить «трения при принятии решений», которые тормозят бизнес

Шокирующая роль инженеров «forward deployed»: неожиданное узкое место, определяющее, будет ли ИИ реально работать в бизнесе

“前哨部署”工程师的角色令人震惊：决定AI能否在企业中落地生根的关键瓶颈

ИИ может устранить «трения при принятии решений», которые тормозят бизнес

Новая лихорадка в Кремниевой долине: программисты не спят по ночам, следя за работой «ИИ-стажеров»

KONTAKT

What's Hot

Шокирующий кризис: ИИ не учится, а запоминает и копирует книги

Related Posts

KONTAKT