OpenAI bringt Wissenschaft auf „Expertenniveau“ in den Überlebenstest für KI

Am 16. Dezember 2025 kündigte OpenAI FrontierScience an, einen neuen Benchmark zur Bewertung der wissenschaftlichen Schlussfolgerungsfähigkeiten (Reasoning) von KI auf Expertenniveau in drei Kernbereichen: Physik, Chemie und Biologie.
Der Schwerpunkt von FrontierScience liegt nicht auf dem Auswendiglernen von Wissen, sondern auf echtem wissenschaftlichem Denken: Hypothesenbildung, Überprüfung, Verfeinerung und interdisziplinäre Synthese.
OpenAI gab an, dass fortschrittliche Modelle wie GPT-5 bereits von Wissenschaftlern in der tatsächlichen Forschung eingesetzt werden, von der interdisziplinären Literaturrecherche und der Synthese mehrsprachiger Forschung bis hin zu komplexen mathematischen Beweisen.
Dank KI benötigen viele Forschungsarbeiten, die früher Tage oder Wochen dauerten, heute nur noch wenige Stunden.
Die Einführung von FrontierScience resultiert daraus, dass alte wissenschaftliche Benchmarks veraltet, gesättigt oder auf Multiple-Choice-Fragen beschränkt waren und kein echtes schlussfolgerndes Denken widerspiegelten.
Zum Beispiel erreichte GPT-4 beim GPQA-Benchmark 2023 nur 39 % im Vergleich zum Expertenniveau von 70 %, aber bis 2025 erreichte GPT-5.2 92 %, was die Notwendigkeit schwierigerer Bewertungen zeigt.
FrontierScience besteht aus über 700 textbasierten Fragen, darunter 160 „Goldstandard“-Fragen, die direkt von Experten erstellt und validiert wurden.
Der Benchmark ist in zwei Zweige unterteilt: FrontierScience-Olympiad mit 100 Kurzantwortfragen mit dem Schwierigkeitsgrad internationaler Wissenschaftsolympiaden und FrontierScience-Research mit 60 mehrstufigen Forschungsproblemen, die von Doktoranden erstellt wurden.
Der Forschungsteil verwendet eine 10-Punkte-Bewertungsskala basierend auf einer Rubrik, die sowohl Ergebnisse als auch die Zwischenschritte der Argumentation bewertet; ab 7/10 gilt die Aufgabe als gelöst.
Erste Ergebnisse zeigen, dass GPT-5.2 77 % bei der Olympiade und 25 % bei der Forschung erreichte, während Gemini 3 Pro 76 % bei der Olympiade erzielte, was große Fortschritte, aber auch viel Raum für Verbesserungen widerspiegelt.

📌 OpenAI kündigte FrontierScience an, einen neuen Benchmark zur Bewertung der wissenschaftlichen Schlussfolgerungsfähigkeiten von KI auf Expertenniveau in drei Kernbereichen: Physik, Chemie und Biologie. Dies markiert den Übergang vom Auswendiglernen von Wissen hin zu echtem wissenschaftlichem Denken: Hypothesenbildung, Überprüfung, Verfeinerung und interdisziplinäre Synthese. Mit über 700 schwierigen Fragen, die von Experten erstellt wurden, zeigen die Ergebnisse, dass GPT-5.2 bei theoretischen Problemen 77 % erreichte, bei offenen Forschungsaufgaben jedoch nur 25 %. Dies zeigt, dass KI stark genug ist, um die Wissenschaft zu unterstützen, aber es bleibt eine große Lücke, bevor sie wirklich neue wissenschaftliche Durchbrüche erzielen kann.

What's Hot

China plant Verschärfung für Open-Source-KI: Autor fordert USA auf, mit offener KI zu reagieren, statt chinesische KI zu verbieten

Moonshot AI soll trotz Verbots Nvidia-Chips verwendet haben: Der KI-Wettlauf zwischen den USA und China eskaliert weiter

Japan testet „KI-Mitarbeiter“: KI unterstützt nicht nur, sondern beginnt als Kollege zu arbeiten

OpenAI bringt Wissenschaft auf „Expertenniveau“ in den Überlebenstest für KI

China plant Verschärfung für Open-Source-KI: Autor fordert USA auf, mit offener KI zu reagieren, statt chinesische KI zu verbieten

Moonshot AI soll trotz Verbots Nvidia-Chips verwendet haben: Der KI-Wettlauf zwischen den USA und China eskaliert weiter

Japan testet „KI-Mitarbeiter“: KI unterstützt nicht nur, sondern beginnt als Kollege zu arbeiten

KONTAKT

What's Hot

China plant Verschärfung für Open-Source-KI: Autor fordert USA auf, mit offener KI zu reagieren, statt chinesische KI zu verbieten

Moonshot AI soll trotz Verbots Nvidia-Chips verwendet haben: Der KI-Wettlauf zwischen den USA und China eskaliert weiter

Japan testet „KI-Mitarbeiter“: KI unterstützt nicht nur, sondern beginnt als Kollege zu arbeiten

OpenAI bringt Wissenschaft auf „Expertenniveau“ in den Überlebenstest für KI

Related Posts

China plant Verschärfung für Open-Source-KI: Autor fordert USA auf, mit offener KI zu reagieren, statt chinesische KI zu verbieten

Moonshot AI soll trotz Verbots Nvidia-Chips verwendet haben: Der KI-Wettlauf zwischen den USA und China eskaliert weiter

Japan testet „KI-Mitarbeiter“: KI unterstützt nicht nur, sondern beginnt als Kollege zu arbeiten

KONTAKT