- 16 декабря 2025 года OpenAI анонсировала FrontierScience, новый бенчмарк, предназначенный для оценки способностей ИИ к научному рассуждению экспертного уровня в трех основных областях: физике, химии и биологии.
- В центре внимания FrontierScience находится не запоминание знаний, а подлинное научное мышление: формирование гипотез, проверка, уточнение и междисциплинарный синтез.
- OpenAI заявила, что передовые модели, такие как GPT-5, уже используются учеными в реальных исследованиях: от поиска междисциплинарной литературы и синтеза многоязычных исследований до сложных математических доказательств.
- Благодаря ИИ многие исследовательские задачи, на выполнение которых раньше уходили дни или недели, теперь занимают всего несколько часов.
- Появление FrontierScience обусловлено тем, что старые научные бенчмарки устарели, перенасыщены или ограничиваются вопросами с несколькими вариантами ответов, не отражая реального рассуждения.
- Например, в бенчмарке GPQA 2023 года GPT-4 набрал лишь 39% по сравнению с 70% у экспертов, но к 2025 году GPT-5.2 достиг 92%, что указывает на необходимость более сложной оценки.
- FrontierScience включает более 700 текстовых вопросов, в том числе 160 вопросов «золотого стандарта», составленных и проверенных непосредственно экспертами.
- Бенчмарк разделен на две ветви: FrontierScience-Olympiad со 100 вопросами с краткими ответами уровня Международных научных олимпиад и FrontierScience-Research с 60 многоэтапными исследовательскими задачами, разработанными докторами наук (PhD).
- В исследовательской части используется 10-балльная шкала оценок на основе рубрикатора, оценивающая как результат, так и промежуточные шаги рассуждения; оценка 7/10 считается правильной.
- Первоначальные результаты показывают, что GPT-5.2 набрал 77% в олимпиадной части и 25% в исследовательской, в то время как Gemini 3 Pro достиг 76% в олимпиадной, что отражает большой прогресс, но и значительное пространство для улучшений.
📌 OpenAI представила FrontierScience, новый бенчмарк для оценки способностей ИИ к научному рассуждению экспертного уровня в трех ключевых областях: физике, химии и биологии, знаменующий переход от запоминания знаний к подлинному научному мышлению: формированию гипотез, проверке, уточнению и междисциплинарному синтезу. Результаты решения более 700 сложных вопросов, составленных экспертами, показывают, что GPT-5.2 достиг 77% в теоретических задачах, но только 25% в открытых исследовательских задачах. Это говорит о том, что ИИ достаточно силен для поддержки науки, но до создания реальных научных прорывов еще далеко.

