- Một nghiên cứu đăng trên Nature ngày 4/2/2026 cho thấy chatbot OpenScholar có thể vượt tiến sĩ và sau tiến sĩ (postdoc) trong việc viết tổng quan tài liệu khoa học.
- OpenScholar được thiết kế bởi các học giả Mỹ nhằm khắc phục hiện tượng “ảo giác” thường thấy ở các LLM như ChatGPT hay Llama khi trích dẫn tài liệu nghiên cứu.
- Các chuyên gia cấp lĩnh vực trong khoa học máy tính, vật lý, thần kinh học và y sinh đã so sánh bài tổng quan do OpenScholar, ScholarQABench và nghiên cứu sinh viết.
- Kết quả cho thấy OpenScholar được ưa thích trong 51% trường hợp, còn ScholarQABench đạt 70%, cao hơn đáng kể so với các bài do tiến sĩ viết.
- Ưu thế chính đến từ độ bao phủ và chiều sâu thông tin, với bài tổng quan dài trung bình 1.447 từ (OpenScholar) hoặc 706 từ, so với 424 từ của con người.
- Các bản tóm tắt do ChatGPT tạo chỉ được ưa thích trong 31% trường hợp vì thiếu bao quát nội dung.
- Nghiên cứu chỉ ra các LLM phổ biến tạo trích dẫn giả trong 78–90% trường hợp, thậm chí 78–98% tiêu đề tài liệu là bịa đặt, đặc biệt nghiêm trọng trong lĩnh vực y sinh.
- Ngược lại, OpenScholar không ghi nhận ảo giác trong các bài tổng quan về khoa học máy tính và y sinh.
- Mô hình 8B của OpenScholar được huấn luyện trên 45 triệu bài báo khoa học, tạo vòng phản hồi tự cải thiện độ chính xác trích dẫn.
- Từ khi ra mắt bản demo, OpenScholar đã có hơn 30.000 người dùng với gần 90.000 truy vấn, chi phí mỗi bản tổng quan chỉ từ 0,01 USD đến 0,05 USD.
📌 Một nghiên cứu đăng trên Nature ngày 4/2/2026 cho thấy chatbot OpenScholar chỉ với 8 tỷ tham số, được huấn luyện trên 45 triệu bài báo khoa học, có thể vượt tiến sĩ và sau tiến sĩ (postdoc) trong việc viết tổng quan tài liệu khoa học. Ưu thế chính đến từ độ bao phủ và chiều sâu thông tin, với bài tổng quan dài trung bình 1.447 từ hoặc 706 từ, so với 424 từ của con người. OpenScholar không ghi nhận ảo giác trong các bài tổng quan về khoa học máy tính và y sinh trong khi các LLM phổ biến tạo trích dẫn giả trong 78–90% trường hợp, thậm chí 78–98% tiêu đề tài liệu là bịa đặt, đặc biệt nghiêm trọng trong lĩnh vực y sinh.
Tổng hợp
