- 2026年2月4日付のNature誌に掲載された研究によると、チャットボット「OpenScholar」が、科学文献レビューの執筆において博士(PhD)やポストドクター(postdoc)を上回る能力を示しました。
- OpenScholarは、ChatGPTやLlamaなどのLLMが研究資料を引用する際に頻発する「ハルシネーション(幻覚)」を克服するために、米国の学者らによって設計されました。
- コンピュータサイエンス、物理学、神経科学、生物医学の専門家が、OpenScholar、ScholarQABench、および博士課程の学生が執筆したレビューを比較しました。
- その結果、OpenScholarは51%のケースで好まれ、ScholarQABenchは70%に達し、博士号保持者が執筆したレビューを大幅に上回りました。
- 主な優位性は情報の網羅性と深さにあり、人間が平均424語であるのに対し、OpenScholarは平均1,447語(または706語)のレビューを生成しました。
- ChatGPTによる要約は、内容の網羅性に欠けるため、わずか31%のケースでしか好まれませんでした。
- 研究では、一般的なLLMが78〜90%のケースで偽の引用を生成し、さらには文献タイトルの78〜98%が捏造されたものであると指摘されています(特に生物医学分野で顕著)。
- 対照的に、OpenScholarはコンピュータサイエンスと生物医学のレビューにおいてハルシネーションを記録しませんでした。
- 8BモデルのOpenScholarは4,500万本の科学論文で学習され、引用の正確性を自己改善するフィードバックループを備えています。
- デモ版のリリース以来、OpenScholarは3万人以上のユーザーと約9万件のクエリを獲得しており、レビュー1件あたりのコストはわずか0.01ドルから0.05ドルです。
📌 結論: 2026年2月4日のNature誌の研究は、4,500万本の論文で学習したわずか80億パラメータの「OpenScholar」が、文献レビューにおいて博士レベルを凌駕したことを示しました。情報の深さと正確性が強みであり、一般的なLLMが引用の大部分を捏造する一方で、OpenScholarはコンピュータおよび生物医学分野でハルシネーション・ゼロを達成しました。

