新チャットボットが科学文献レビューで博士号保持者を上回り、学界に衝撃

2026年2月4日付のNature誌に掲載された研究によると、チャットボット「OpenScholar」が、科学文献レビューの執筆において博士（PhD）やポストドクター（postdoc）を上回る能力を示しました。
OpenScholarは、ChatGPTやLlamaなどのLLMが研究資料を引用する際に頻発する「ハルシネーション（幻覚）」を克服するために、米国の学者らによって設計されました。
コンピュータサイエンス、物理学、神経科学、生物医学の専門家が、OpenScholar、ScholarQABench、および博士課程の学生が執筆したレビューを比較しました。
その結果、OpenScholarは51%のケースで好まれ、ScholarQABenchは70%に達し、博士号保持者が執筆したレビューを大幅に上回りました。
主な優位性は情報の網羅性と深さにあり、人間が平均424語であるのに対し、OpenScholarは平均1,447語（または706語）のレビューを生成しました。
ChatGPTによる要約は、内容の網羅性に欠けるため、わずか31%のケースでしか好まれませんでした。
研究では、一般的なLLMが78〜90%のケースで偽の引用を生成し、さらには文献タイトルの78〜98%が捏造されたものであると指摘されています（特に生物医学分野で顕著）。
対照的に、OpenScholarはコンピュータサイエンスと生物医学のレビューにおいてハルシネーションを記録しませんでした。
8BモデルのOpenScholarは4,500万本の科学論文で学習され、引用の正確性を自己改善するフィードバックループを備えています。
デモ版のリリース以来、OpenScholarは3万人以上のユーザーと約9万件のクエリを獲得しており、レビュー1件あたりのコストはわずか0.01ドルから0.05ドルです。

📌 結論： 2026年2月4日のNature誌の研究は、4,500万本の論文で学習したわずか80億パラメータの「OpenScholar」が、文献レビューにおいて博士レベルを凌駕したことを示しました。情報の深さと正確性が強みであり、一般的なLLMが引用の大部分を捏造する一方で、OpenScholarはコンピュータおよび生物医学分野でハルシネーション・ゼロを達成しました。

What's Hot

「フォワード・デプロイ」エンジニアという衝撃的な役割：AIが企業で真に機能するかを決定づける意外なボトルネック

AIは企業を停滞させる「意思決定の摩擦」を解消できる

シリコンバレーの新ブーム：プログラマーが深夜まで「AIインターン」チームの働きを監視

新チャットボットが科学文献レビューで博士号保持者を上回り、学界に衝撃

「フォワード・デプロイ」エンジニアという衝撃的な役割：AIが企業で真に機能するかを決定づける意外なボトルネック

AIは企業を停滞させる「意思決定の摩擦」を解消できる

シリコンバレーの新ブーム：プログラマーが深夜まで「AIインターン」チームの働きを監視

「フォワード・デプロイ」エンジニアという衝撃的な役割：AIが企業で真に機能するかを決定づける意外なボトルネック

AIは企業を停滞させる「意思決定の摩擦」を解消できる

シリコンバレーの新ブーム：プログラマーが深夜まで「AIインターン」チームの働きを監視

注目される合意：ByteDance、AI開発のためにマレーシアで3万6,000基のBlackwell GPUスーパークラスターを使用へ

連絡先

What's Hot

新チャットボットが科学文献レビューで博士号保持者を上回り、学界に衝撃

Related Posts

連絡先