OpenAI将“专家级”科学引入AI生存测试

OpenAI于2025年12月16日宣布推出FrontierScience，这是一个新的基准测试，旨在评估AI在物理、化学和生物学三个核心领域的专家级科学推理能力。
FrontierScience的重点不是死记硬背知识，而是真正的科学思维：假设形成、验证、完善和跨学科综合。
OpenAI表示，GPT-5等先进模型已被科学家用于实际研究，从跨学科文献检索、多语言研究综合到复杂的数学证明。
得益于AI，许多曾经需要几天或几周的研究工作现在只需几个小时即可完成。
FrontierScience的诞生源于旧的科学基准测试已经过时、饱和或仅停留在多项选择题上，无法反映真实的推理能力。
例如，2023年的GPQA基准测试中，GPT-4仅达到39%（专家水平为70%），但到2025年，GPT-5.2已达到92%，这表明需要更难的评估标准。
FrontierScience包含700多道基于文本的问题，其中包括160道由专家直接编写和验证的“黄金标准”问题。
该基准测试分为两个分支：FrontierScience-Olympiad（奥林匹克），包含100道难度相当于国际科学奥林匹克的简答题；以及FrontierScience-Research（研究），包含60道由博士构建的多步骤研究问题。
研究部分使用基于评分标准的10分制，评估结果和中间推理步骤；7/10分以上被视为正确。
初步结果显示，GPT-5.2在奥林匹克部分达到77%，在研究部分达到25%，而Gemini 3 Pro在奥林匹克部分达到76%，这反映了巨大的进步，但仍有很大的改进空间。

📌 OpenAI发布了FrontierScience，这是一个评估AI在物理、化学和生物学三个核心领域专家级科学推理能力的新基准，标志着从记忆知识向真正的科学思维转变：假设形成、验证、完善和跨学科综合。凭借专家构建的700多道难题，结果显示GPT-5.2在理论问题上达到77%，但在开放式研究任务上仅为25%。这表明AI已足够强大以支持科学，但在真正创造新的科学突破之前仍有很大差距。

What's Hot

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

OpenAI将“专家级”科学引入AI生存测试

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

联系方式

What's Hot

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

OpenAI将“专家级”科学引入AI生存测试

Related Posts

中国拟收紧开源AI：作者呼吁美国通过开放AI而非禁止中国AI来回应

月之暗面（Moonshot AI）被指控违规使用英伟达芯片：中美AI竞赛持续升级

日本试用“AI员工”：AI不仅是辅助，更开始像同事一样工作

联系方式