- Eine am 4. Februar 2026 in Nature veröffentlichte Studie zeigt, dass der Chatbot OpenScholar Postdoktoranden und Doktoren (PhDs) beim Verfassen wissenschaftlicher Literaturübersichten übertreffen kann.
- OpenScholar wurde von US-Wissenschaftlern entwickelt, um das Problem der „Halluzinationen“ zu beheben, das bei LLMs wie ChatGPT oder Llama beim Zitieren von Forschungsunterlagen häufig auftritt.
- Fachexperten aus Informatik, Physik, Neurowissenschaften und Biomedizin verglichen Berichte von OpenScholar, ScholarQABench und Doktoranden.
- Die Ergebnisse zeigten, dass OpenScholar in 51 % der Fälle bevorzugt wurde, während ScholarQABench 70 % erreichte – deutlich mehr als die von PhDs verfassten Berichte.
- Der Hauptvorteil liegt in der Abdeckung und Informationstiefe: Die Berichte umfassen durchschnittlich 1.447 Wörter (OpenScholar) oder 706 Wörter, verglichen mit 424 Wörtern bei Menschen.
- ChatGPT-Zusammenfassungen wurden nur in 31 % der Fälle bevorzugt, da es ihnen an inhaltlicher Breite fehlte.
- Die Studie weist darauf hin, dass gängige LLMs in 78–90 % der Fälle gefälschte Zitate generieren; 78–98 % der Titel sind erfunden, was besonders in der Biomedizin gravierend ist.
- Im Gegensatz dazu verzeichnete OpenScholar bei Informatik- und Biomedizin-Berichten keinerlei Halluzinationen.
- Das 8B-Modell von OpenScholar wurde auf 45 Millionen wissenschaftlichen Artikeln trainiert und nutzt einen Feedback-Zyklus zur Selbstverbesserung der Zitiergenauigkeit.
- Seit dem Start der Demoversion hat OpenScholar über 30.000 Nutzer und fast 90.000 Abfragen; die Kosten pro Bericht liegen bei nur 0,01 bis 0,05 USD.
📌 Fazit: Eine Nature-Studie (04.02.2026) belegt, dass der Chatbot OpenScholar (8 Mrd. Parameter), trainiert auf 45 Mio. Artikeln, PhDs bei Literaturberichten übertrifft. Die Stärke liegt in der Informationstiefe (1.447 vs. 424 Wörter bei Menschen). Während gängige LLMs in bis zu 90 % der Fälle Zitate fälschen, lieferte OpenScholar in Informatik und Biomedizin fehlerfreie Ergebnisse ohne Halluzinationen.
