• OpenAIは2025年12月16日、物理学、化学、生物学の3つの主要分野において、AIのエキスパートレベルの科学的推論能力を評価するための新しいベンチマーク「FrontierScience」を発表しました。
  • FrontierScienceの焦点は知識の暗記ではなく、仮説形成、検証、修正、学際的統合といった真の科学的思考にあります。
  • OpenAIによると、GPT-5のような高度なモデルは、学際的な文献検索、多言語研究の統合から複雑な数学的証明に至るまで、実際の研究においてすでに科学者によって使用されています。
  • AIのおかげで、かつては数日または数週間かかっていた多くの研究作業が、今ではわずか数時間で完了します。
  • FrontierScienceの誕生は、古い科学ベンチマークが時代遅れになったり、飽和状態になったり、あるいは多肢選択問題にとどまり、真の推論を反映していないことに起因します。
  • たとえば、2023年のGPQAベンチマークでは、専門家の70%に対しGPT-4は39%にとどまりましたが、2025年にはGPT-5.2が92%に達しており、より難易度の高い評価が必要であることを示しています。
  • FrontierScienceは700以上のテキスト形式の質問で構成されており、そのうち160問は専門家が直接作成・検証した「ゴールドスタンダード」の問題です。
  • ベンチマークは2つのブランチに分かれています。国際科学オリンピックレベルの難易度を持つ100問の短答式問題からなる「FrontierScience-Olympiad」と、博士号取得者によって作成された60問の多段階研究課題からなる「FrontierScience-Research」です。
  • Research部門では、ルーブリック(評価基準)に基づいた10点満点の採点を使用し、結果だけでなく中間の推論ステップも評価します。10点中7点以上が正解とみなされます。
  • 初期の結果によると、GPT-5.2はOlympiadで77%、Researchで25%を達成し、Gemini 3 ProはOlympiadで76%を達成しました。これは大きな進歩を反映していますが、依然として改善の余地が多くあることも示しています。

📌 OpenAIは、物理学、化学、生物学の3つの主要分野におけるAIのエキスパートレベルの科学的推論能力を評価する新しいベンチマーク「FrontierScience」を発表しました。これは知識の暗記ではなく、仮説形成、検証、修正、学際的統合といった真の科学的思考への移行を示しています。専門家によって作成された700以上の難問による結果は、GPT-5.2が理論問題で77%に達したものの、オープンな研究課題では25%にとどまったことを示しています。これは、AIが科学を支援するのに十分強力であることを示していますが、真に新しい科学的ブレークスルーを生み出すまでにはまだ大きな隔たりがあります。

Share.
連絡先

メール:info@vietmetric.vn
住所:ベトナム ハノイ市 イエンホア坊 チャン・ズイ・フン通り 91番路地 34番

© 2026 Vietmetric
Exit mobile version