Khủng hoảng gây sốc: AI không học mà đang ghi nhớ và sao chép sách

Nghiên cứu mới từ Stanford và Yale cho thấy các mô hình ngôn ngữ lớn không chỉ “học” mà còn lưu trữ và tái tạo nguyên văn nội dung sách.
4 mô hình phổ biến gồm GPT của OpenAI, Claude của Anthropic, Gemini của Google và Grok của xAI được phát hiện ghi nhớ nội dung bản quyền.
Khi được gợi ý đúng cách, Claude có thể tái tạo gần như toàn bộ Harry Potter and the Sorcerer’s Stone, The Great Gatsby, 1984 và Frankenstein.
Tổng cộng 13 cuốn sách được thử nghiệm, nhiều cuốn bị trích xuất hàng nghìn từ gần như nguyên văn.
Hiện tượng này được gọi là “memorization”, trái ngược với tuyên bố trước đây của các công ty AI rằng mô hình không lưu bản sao dữ liệu huấn luyện.
OpenAI và Google từng khẳng định mô hình chỉ lưu “patterns” ngôn ngữ, không giữ nội dung gốc.
Thực tế, LLM hoạt động như một dạng nén có lỗi, tương tự MP3 hay JPEG, nén dữ liệu nhưng vẫn giữ lại phần lõi.
Một tòa án tại Đức đã so sánh ChatGPT với tệp nén và ra phán quyết bất lợi cho OpenAI trong vụ kiện của GEMA.
AI image generator như Stable Diffusion cũng bị phát hiện tái tạo gần giống tranh và ảnh gốc.
Các mô hình có thể sao chép không chỉ câu chữ mà cả cấu trúc, hình ảnh và phong cách nghệ thuật.
Nghiên cứu khác cho thấy 8–15% nội dung do LLM tạo ra đã tồn tại nguyên văn trên web.
Điều này mở ra rủi ro pháp lý khổng lồ, có thể khiến AI bị buộc gỡ khỏi thị trường hoặc huấn luyện lại từ đầu.
Dù Sam Altman bảo vệ “quyền học” của AI, giới nghiên cứu cho rằng phép so sánh với con người là gây hiểu lầm.
Các chuyên gia nhận định memorization là đặc tính cố hữu, không phải lỗi hiếm.

📌 Nghiên cứu mới từ đại học Stanford và Yale cho thấy các mô hình ngôn ngữ lớn không chỉ “học” mà còn lưu trữ và tái tạo nguyên văn nội dung sách. Phát hiện này làm lung lay nền tảng lý luận của ngành AI tạo sinh. Thay vì “học” như con người, các mô hình vận hành bằng cách nén và truy xuất dữ liệu, dẫn đến nguy cơ vi phạm bản quyền trên quy mô lớn. Nếu tòa án coi mô hình AI là một bản sao bất hợp pháp, ngành công nghiệp này có thể đối mặt với án phạt hàng tỷ USD và buộc phải tái cấu trúc toàn bộ cách phát triển AI trong tương lai.

Tổng hợp.

What's Hot

Trung Quốc sắp siết AI nguồn mở: Tác giả kêu gọi Mỹ đáp trả bằng cách mở AI, không phải cấm AI Trung Quốc

Moonshot AI bị cáo buộc sử dụng chip Nvidia dù bị cấm: Cuộc đua AI Mỹ – Trung tiếp tục leo thang

Nhật Bản thử nghiệm “nhân viên AI”: AI không chỉ hỗ trợ mà bắt đầu làm việc như một đồng nghiệp

Khủng hoảng gây sốc: AI không học mà đang ghi nhớ và sao chép sách

Trung Quốc sắp siết AI nguồn mở: Tác giả kêu gọi Mỹ đáp trả bằng cách mở AI, không phải cấm AI Trung Quốc

Moonshot AI bị cáo buộc sử dụng chip Nvidia dù bị cấm: Cuộc đua AI Mỹ – Trung tiếp tục leo thang

Nhật Bản thử nghiệm “nhân viên AI”: AI không chỉ hỗ trợ mà bắt đầu làm việc như một đồng nghiệp

Liên hệ:

What's Hot

Trung Quốc sắp siết AI nguồn mở: Tác giả kêu gọi Mỹ đáp trả bằng cách mở AI, không phải cấm AI Trung Quốc

Moonshot AI bị cáo buộc sử dụng chip Nvidia dù bị cấm: Cuộc đua AI Mỹ – Trung tiếp tục leo thang

Nhật Bản thử nghiệm “nhân viên AI”: AI không chỉ hỗ trợ mà bắt đầu làm việc như một đồng nghiệp

Khủng hoảng gây sốc: AI không học mà đang ghi nhớ và sao chép sách

Related Posts

Trung Quốc sắp siết AI nguồn mở: Tác giả kêu gọi Mỹ đáp trả bằng cách mở AI, không phải cấm AI Trung Quốc

Moonshot AI bị cáo buộc sử dụng chip Nvidia dù bị cấm: Cuộc đua AI Mỹ – Trung tiếp tục leo thang

Nhật Bản thử nghiệm “nhân viên AI”: AI không chỉ hỗ trợ mà bắt đầu làm việc như một đồng nghiệp

Liên hệ: