- OpenAI는 2025년 12월 16일, 물리학, 화학, 생물학 등 3대 핵심 분야에서 AI의 전문가 수준 과학적 추론(reasoning) 능력을 평가하기 위한 새로운 벤치마크인 ‘프런티어 사이언스(FrontierScience)’를 발표했습니다.
- FrontierScience의 초점은 지식 암기가 아니라, 가설 수립, 검증, 수정 및 학제 간 통합과 같은 진정한 과학적 사고에 있습니다.
- OpenAI는 GPT-5와 같은 첨단 모델이 학제 간 문헌 검색, 다국어 연구 종합에서 복잡한 수학 증명에 이르기까지 실제 연구에서 과학자들에 의해 이미 사용되고 있다고 밝혔습니다.
- AI 덕분에 며칠 혹은 몇 주가 걸리던 많은 연구 작업이 이제는 단 몇 시간 만에 완료됩니다.
- FrontierScience의 탄생은 기존 과학 벤치마크가 구식이 되었거나, 포화 상태이거나, 객관식 질문에 그쳐 진정한 추론 능력을 반영하지 못한다는 사실에서 비롯되었습니다.
- 예를 들어, 2023년 GPQA 벤치마크에서 GPT-4는 전문가 수준인 70%에 비해 39%에 그쳤지만, 2025년에는 GPT-5.2가 92%에 도달하여 더 어려운 평가의 필요성을 보여주었습니다.
- FrontierScience는 700개 이상의 텍스트 형식 질문으로 구성되어 있으며, 그중 160개는 전문가가 직접 작성하고 검증한 ‘골드 스탠다드’ 질문입니다.
- 이 벤치마크는 두 가지 분파로 나뉩니다. 국제 과학 올림피아드 난이도에 해당하는 단답형 문제 100개로 구성된 ‘FrontierScience-Olympiad’와 박사급 연구원들이 만든 60개의 다단계 연구 문제로 구성된 ‘FrontierScience-Research’입니다.
- Research 부분은 루브릭(rubric)에 기반한 10점 만점 채점 방식을 사용하여 결과뿐만 아니라 중간 추론 단계도 평가하며, 7/10점 이상을 정답으로 간주합니다.
- 초기 결과에 따르면 GPT-5.2는 Olympiad에서 77%, Research에서 25%를 달성했으며, Gemini 3 Pro는 Olympiad에서 76%를 달성하여 큰 진전을 반영했지만 여전히 개선의 여지가 많음을 보여주었습니다.
📌 OpenAI는 물리학, 화학, 생물학의 3대 핵심 분야에서 AI의 전문가 수준 과학적 추론 능력을 평가하는 새로운 벤치마크인 FrontierScience를 발표했습니다. 이는 지식 암기가 아닌 가설 수립, 검증, 수정 및 학제 간 통합과 같은 진정한 과학적 사고로의 전환을 의미합니다. 전문가가 만든 700개 이상의 난이도 높은 질문을 통한 결과는 GPT-5.2가 이론 문제에서는 77%에 도달했으나 개방형 연구 과제에서는 25%에 그쳤음을 보여줍니다. 이는 AI가 과학을 지원하기에 충분히 강력해졌지만, 진정한 새로운 과학적 돌파구를 마련하기까지는 아직 큰 격차가 있음을 시사합니다.
