- Am 16. Dezember 2025 kündigte OpenAI FrontierScience an, einen neuen Benchmark zur Bewertung der wissenschaftlichen Schlussfolgerungsfähigkeiten (Reasoning) von KI auf Expertenniveau in drei Kernbereichen: Physik, Chemie und Biologie.
- Der Schwerpunkt von FrontierScience liegt nicht auf dem Auswendiglernen von Wissen, sondern auf echtem wissenschaftlichem Denken: Hypothesenbildung, Überprüfung, Verfeinerung und interdisziplinäre Synthese.
- OpenAI gab an, dass fortschrittliche Modelle wie GPT-5 bereits von Wissenschaftlern in der tatsächlichen Forschung eingesetzt werden, von der interdisziplinären Literaturrecherche und der Synthese mehrsprachiger Forschung bis hin zu komplexen mathematischen Beweisen.
- Dank KI benötigen viele Forschungsarbeiten, die früher Tage oder Wochen dauerten, heute nur noch wenige Stunden.
- Die Einführung von FrontierScience resultiert daraus, dass alte wissenschaftliche Benchmarks veraltet, gesättigt oder auf Multiple-Choice-Fragen beschränkt waren und kein echtes schlussfolgerndes Denken widerspiegelten.
- Zum Beispiel erreichte GPT-4 beim GPQA-Benchmark 2023 nur 39 % im Vergleich zum Expertenniveau von 70 %, aber bis 2025 erreichte GPT-5.2 92 %, was die Notwendigkeit schwierigerer Bewertungen zeigt.
- FrontierScience besteht aus über 700 textbasierten Fragen, darunter 160 „Goldstandard“-Fragen, die direkt von Experten erstellt und validiert wurden.
- Der Benchmark ist in zwei Zweige unterteilt: FrontierScience-Olympiad mit 100 Kurzantwortfragen mit dem Schwierigkeitsgrad internationaler Wissenschaftsolympiaden und FrontierScience-Research mit 60 mehrstufigen Forschungsproblemen, die von Doktoranden erstellt wurden.
- Der Forschungsteil verwendet eine 10-Punkte-Bewertungsskala basierend auf einer Rubrik, die sowohl Ergebnisse als auch die Zwischenschritte der Argumentation bewertet; ab 7/10 gilt die Aufgabe als gelöst.
- Erste Ergebnisse zeigen, dass GPT-5.2 77 % bei der Olympiade und 25 % bei der Forschung erreichte, während Gemini 3 Pro 76 % bei der Olympiade erzielte, was große Fortschritte, aber auch viel Raum für Verbesserungen widerspiegelt.
📌 OpenAI kündigte FrontierScience an, einen neuen Benchmark zur Bewertung der wissenschaftlichen Schlussfolgerungsfähigkeiten von KI auf Expertenniveau in drei Kernbereichen: Physik, Chemie und Biologie. Dies markiert den Übergang vom Auswendiglernen von Wissen hin zu echtem wissenschaftlichem Denken: Hypothesenbildung, Überprüfung, Verfeinerung und interdisziplinäre Synthese. Mit über 700 schwierigen Fragen, die von Experten erstellt wurden, zeigen die Ergebnisse, dass GPT-5.2 bei theoretischen Problemen 77 % erreichte, bei offenen Forschungsaufgaben jedoch nur 25 %. Dies zeigt, dass KI stark genug ist, um die Wissenschaft zu unterstützen, aber es bleibt eine große Lücke, bevor sie wirklich neue wissenschaftliche Durchbrüche erzielen kann.

