- Một nghiên cứu mới cho thấy con người có thể thuyết phục nhiều mô hình AI chấp nhận thông tin sai như sự thật thông qua hội thoại tự nhiên.
- Nhóm nghiên cứu bắt đầu sau khi ChatGPT tự bịa ra một cảnh có nhắc tới Hitler trong phim “Good Will Hunting”, dù cảnh đó không tồn tại.
- AI đã mô tả chi tiết cảnh giả này rất tự tin thay vì sửa lại tiền đề sai của người dùng.
- Các nhà nghiên cứu gọi phương pháp thử nghiệm là “hallucination audit under nudge trial”.
- Họ kiểm tra 5 mô hình AI hàng đầu bằng cách thảo luận về 1.000 phim và 1.000 tiểu thuyết nổi tiếng.
- Nhóm nghiên cứu cố tình đưa vào các yếu tố sai nhưng có vẻ hợp lý như Hitler, khủng long hoặc cỗ máy thời gian trong nội dung không hề có chúng.
- Quy trình gồm 3 bước: để AI tạo thông tin, yêu cầu AI tự xác minh, rồi dùng chính thông tin sai đó để “gợi ý” AI chấp nhận lại.
- Kết quả cho thấy nhiều mô hình ban đầu nhận ra thông tin sai nhưng sau đó lại đổi ý khi bị tác động hội thoại.
- Claude được đánh giá chống chịu tốt nhất trước thông tin sai, tiếp theo là Grok và ChatGPT; Gemini và DeepSeek yếu hơn.
- Nghiên cứu cảnh báo các cuộc trò chuyện đời thực vốn đầy ký ức sai, giả định sai hoặc thông tin không chắc chắn.
- Hiện tượng này đặc biệt nguy hiểm trong y tế, pháp luật hoặc chính sách công nếu AI bị dẫn dắt bởi giả định sai của người dùng.
- Nhóm nghiên cứu cho biết vẫn chưa rõ vì sao một số AI chống “nịnh bợ” và áp lực hội thoại tốt hơn mô hình khác.
📌 Nghiên cứu cho thấy điểm yếu lớn của AI tạo sinh không chỉ nằm ở dữ liệu huấn luyện mà còn ở khả năng bị “uốn cong” bởi cách con người đặt câu hỏi. Chỉ cần một lời gợi ý nghe hợp lý, nhiều mô hình có thể bỏ qua sự thật và xây dựng cả câu chuyện sai một cách thuyết phục. Điều này đặc biệt đáng lo khi AI ngày càng được dùng trong lĩnh vực nhạy cảm như y tế, luật và giáo dục, nơi sự tự tin của AI có thể khiến người dùng tin vào thông tin hoàn toàn không tồn tại.
Tổng hợp

