- OpenAI ngày 16/12/2025 công bố FrontierScience, benchmark mới nhằm đánh giá khả năng reasoning khoa học ở cấp chuyên gia của AI trong ba lĩnh vực cốt lõi: vật lý, hóa học và sinh học.
- Trọng tâm của FrontierScience không phải ghi nhớ kiến thức, mà là tư duy khoa học thực thụ: hình thành giả thuyết, kiểm định, tinh chỉnh và tổng hợp liên ngành.
- OpenAI cho biết các mô hình tiên tiến như GPT-5 đã được các nhà khoa học sử dụng trong nghiên cứu thực tế, từ tìm kiếm tài liệu liên ngành, tổng hợp nghiên cứu đa ngôn ngữ đến chứng minh toán học phức tạp.
- Nhờ AI, nhiều công việc nghiên cứu từng mất vài ngày hoặc vài tuần nay chỉ cần vài giờ để hoàn thành.
- Sự ra đời của FrontierScience xuất phát từ việc các benchmark khoa học cũ đã lỗi thời, bão hòa hoặc chỉ dừng ở câu hỏi trắc nghiệm, không phản ánh reasoning thật.
- Ví dụ, benchmark GPQA năm 2023 từng khiến GPT-4 chỉ đạt 39% so với mức 70% của chuyên gia, nhưng đến 2025 GPT-5.2 đã đạt 92%, cho thấy nhu cầu đánh giá khó hơn.
- FrontierScience gồm hơn 700 câu hỏi dạng văn bản, trong đó 160 câu thuộc bộ gold-standard, do các chuyên gia trực tiếp biên soạn và xác thực.
- Benchmark chia làm hai nhánh: FrontierScience-Olympiad với 100 câu short-answer mang độ khó tương đương Olympic khoa học quốc tế, và FrontierScience-Research với 60 bài toán nghiên cứu nhiều bước do tiến sĩ xây dựng.
- Phần Research sử dụng thang chấm 10 điểm dựa trên rubric, đánh giá cả kết quả lẫn các bước reasoning trung gian; từ 7/10 được xem là đúng.
- Kết quả ban đầu cho thấy GPT-5.2 đạt 77% ở Olympiad và 25% ở Research, trong khi Gemini 3 Pro đạt 76% ở Olympiad, phản ánh tiến bộ lớn nhưng vẫn còn nhiều dư địa cải thiện.
📌 OpenAI công bố FrontierScience, benchmark mới đánh giá khả năng lý luận khoa học ở cấp chuyên gia của AI trong ba lĩnh vực cốt lõi: vật lý, hóa học và sinh học, đánh dấu không phải ghi nhớ kiến thức, mà là tư duy khoa học thực thụ: hình thành giả thuyết, kiểm định, tinh chỉnh và tổng hợp liên ngành. Với hơn 700 câu hỏi khó do chuyên gia xây dựng, kết quả cho thấy GPT-5.2 đạt 77% ở bài toán lý thuyết nhưng chỉ 25% ở nhiệm vụ nghiên cứu mở. Điều này cho thấy AI đã đủ mạnh để hỗ trợ khoa học, nhưng vẫn còn khoảng cách lớn trước khi thực sự tạo ra đột phá khoa học mới.
Tổng hợp.
