- Nghiên cứu mới từ Stanford và Yale cho thấy các mô hình ngôn ngữ lớn không chỉ “học” mà còn lưu trữ và tái tạo nguyên văn nội dung sách.
- 4 mô hình phổ biến gồm GPT của OpenAI, Claude của Anthropic, Gemini của Google và Grok của xAI được phát hiện ghi nhớ nội dung bản quyền.
- Khi được gợi ý đúng cách, Claude có thể tái tạo gần như toàn bộ Harry Potter and the Sorcerer’s Stone, The Great Gatsby, 1984 và Frankenstein.
- Tổng cộng 13 cuốn sách được thử nghiệm, nhiều cuốn bị trích xuất hàng nghìn từ gần như nguyên văn.
- Hiện tượng này được gọi là “memorization”, trái ngược với tuyên bố trước đây của các công ty AI rằng mô hình không lưu bản sao dữ liệu huấn luyện.
- OpenAI và Google từng khẳng định mô hình chỉ lưu “patterns” ngôn ngữ, không giữ nội dung gốc.
- Thực tế, LLM hoạt động như một dạng nén có lỗi, tương tự MP3 hay JPEG, nén dữ liệu nhưng vẫn giữ lại phần lõi.
- Một tòa án tại Đức đã so sánh ChatGPT với tệp nén và ra phán quyết bất lợi cho OpenAI trong vụ kiện của GEMA.
- AI image generator như Stable Diffusion cũng bị phát hiện tái tạo gần giống tranh và ảnh gốc.
- Các mô hình có thể sao chép không chỉ câu chữ mà cả cấu trúc, hình ảnh và phong cách nghệ thuật.
- Nghiên cứu khác cho thấy 8–15% nội dung do LLM tạo ra đã tồn tại nguyên văn trên web.
- Điều này mở ra rủi ro pháp lý khổng lồ, có thể khiến AI bị buộc gỡ khỏi thị trường hoặc huấn luyện lại từ đầu.
- Dù Sam Altman bảo vệ “quyền học” của AI, giới nghiên cứu cho rằng phép so sánh với con người là gây hiểu lầm.
- Các chuyên gia nhận định memorization là đặc tính cố hữu, không phải lỗi hiếm.
📌 Nghiên cứu mới từ đại học Stanford và Yale cho thấy các mô hình ngôn ngữ lớn không chỉ “học” mà còn lưu trữ và tái tạo nguyên văn nội dung sách. Phát hiện này làm lung lay nền tảng lý luận của ngành AI tạo sinh. Thay vì “học” như con người, các mô hình vận hành bằng cách nén và truy xuất dữ liệu, dẫn đến nguy cơ vi phạm bản quyền trên quy mô lớn. Nếu tòa án coi mô hình AI là một bản sao bất hợp pháp, ngành công nghiệp này có thể đối mặt với án phạt hàng tỷ USD và buộc phải tái cấu trúc toàn bộ cách phát triển AI trong tương lai.
Tổng hợp.
