- Le 16 décembre 2025, OpenAI a annoncé FrontierScience, un nouveau benchmark destiné à évaluer les capacités de raisonnement scientifique de niveau expert de l’IA dans trois domaines fondamentaux : la physique, la chimie et la biologie.
- L’accent de FrontierScience n’est pas mis sur la mémorisation des connaissances, mais sur la véritable pensée scientifique : formulation d’hypothèses, vérification, affinement et synthèse interdisciplinaire.
- OpenAI a déclaré que des modèles avancés comme GPT-5 ont été utilisés par des scientifiques dans la recherche réelle, allant de la recherche documentaire interdisciplinaire et de la synthèse de recherches multilingues à la démonstration mathématique complexe.
- Grâce à l’IA, de nombreuses tâches de recherche qui prenaient autrefois des jours ou des semaines ne nécessitent plus que quelques heures.
- La création de FrontierScience découle du fait que les anciens benchmarks scientifiques sont devenus obsolètes, saturés ou limités à des questions à choix multiples, ne reflétant pas le véritable raisonnement.
- Par exemple, le benchmark GPQA de 2023 a vu GPT-4 n’atteindre que 39 % par rapport au niveau expert de 70 %, mais en 2025, GPT-5.2 a atteint 92 %, indiquant un besoin d’évaluations plus difficiles.
- FrontierScience se compose de plus de 700 questions textuelles, dont 160 questions « gold-standard » (étalon-or) compilées et validées directement par des experts.
- Le benchmark est divisé en deux branches : FrontierScience-Olympiad avec 100 questions à réponse courte d’une difficulté équivalente aux Olympiades scientifiques internationales, et FrontierScience-Research avec 60 problèmes de recherche en plusieurs étapes construits par des doctorants.
- La partie Recherche utilise une échelle de notation sur 10 points basée sur une grille d’évaluation (rubric), évaluant à la fois les résultats et les étapes de raisonnement intermédiaires ; une note de 7/10 ou plus est considérée comme correcte.
- Les résultats initiaux montrent que GPT-5.2 a atteint 77 % aux Olympiades et 25 % en Recherche, tandis que Gemini 3 Pro a atteint 76 % aux Olympiades, reflétant de grands progrès mais aussi une grande marge d’amélioration.
📌 OpenAI a annoncé FrontierScience, un nouveau benchmark évaluant les capacités de raisonnement scientifique de niveau expert de l’IA dans trois domaines clés : la physique, la chimie et la biologie, marquant le passage de la mémorisation des connaissances à la véritable pensée scientifique : formulation d’hypothèses, vérification, affinement et synthèse interdisciplinaire. Avec plus de 700 questions difficiles élaborées par des experts, les résultats montrent que GPT-5.2 atteint 77 % sur les problèmes théoriques mais seulement 25 % sur les tâches de recherche ouvertes. Cela indique que l’IA est assez puissante pour soutenir la science, mais qu’il reste un grand fossé avant de créer véritablement de nouvelles percées scientifiques.
