• OpenAI于2025年12月16日宣布推出FrontierScience,这是一个新的基准测试,旨在评估AI在物理、化学和生物学三个核心领域的专家级科学推理能力。
  • FrontierScience的重点不是死记硬背知识,而是真正的科学思维:假设形成、验证、完善和跨学科综合。
  • OpenAI表示,GPT-5等先进模型已被科学家用于实际研究,从跨学科文献检索、多语言研究综合到复杂的数学证明。
  • 得益于AI,许多曾经需要几天或几周的研究工作现在只需几个小时即可完成。
  • FrontierScience的诞生源于旧的科学基准测试已经过时、饱和或仅停留在多项选择题上,无法反映真实的推理能力。
  • 例如,2023年的GPQA基准测试中,GPT-4仅达到39%(专家水平为70%),但到2025年,GPT-5.2已达到92%,这表明需要更难的评估标准。
  • FrontierScience包含700多道基于文本的问题,其中包括160道由专家直接编写和验证的“黄金标准”问题。
  • 该基准测试分为两个分支:FrontierScience-Olympiad(奥林匹克),包含100道难度相当于国际科学奥林匹克的简答题;以及FrontierScience-Research(研究),包含60道由博士构建的多步骤研究问题。
  • 研究部分使用基于评分标准的10分制,评估结果和中间推理步骤;7/10分以上被视为正确。
  • 初步结果显示,GPT-5.2在奥林匹克部分达到77%,在研究部分达到25%,而Gemini 3 Pro在奥林匹克部分达到76%,这反映了巨大的进步,但仍有很大的改进空间。

📌 OpenAI发布了FrontierScience,这是一个评估AI在物理、化学和生物学三个核心领域专家级科学推理能力的新基准,标志着从记忆知识向真正的科学思维转变:假设形成、验证、完善和跨学科综合。凭借专家构建的700多道难题,结果显示GPT-5.2在理论问题上达到77%,但在开放式研究任务上仅为25%。这表明AI已足够强大以支持科学,但在真正创造新的科学突破之前仍有很大差距。

Share.
联系方式

电子邮件: info@vietmetric.vn
地址:河内市安和坊陈维兴街91巷34号

© 2026 Vietmetric
Exit mobile version