- 2026年2月4日发表在《自然》(Nature)杂志上的一项研究显示,OpenScholar 聊天机器人在撰写科学文献综述方面可以超越博士和博士后。
- OpenScholar 由美国学者设计,旨在解决 ChatGPT 或 Llama 等大语言模型在引用研究文献时常见的“幻觉”问题。
- 计算机科学、物理学、神经科学和生物医学领域的专家对比了由 OpenScholar、ScholarQABench 和博士生撰写的综述。
- 结果显示,OpenScholar 在 51% 的案例中更受欢迎,而 ScholarQABench 达到了 70%,显著高于博士撰写的文章。
- 主要优势在于信息的覆盖面和深度,OpenScholar 生成的综述平均长达 1447 字(或 706 字),而人类撰写的平均仅为 424 字。
- ChatGPT 生成的摘要仅在 31% 的案例中受到青睐,原因是内容不够全面。
- 研究指出,通用大语言模型在 78-90% 的情况下会生成虚假引用,甚至 78-98% 的文献标题是伪造的,这在生物医学领域尤为严重。
- 相比之下,OpenScholar 在计算机科学和生物医学综述中未记录到任何幻觉。
- OpenScholar 的 8B 模型基于 4500 万篇科学论文进行训练,构建了自动提高引用准确性的反馈闭环。
- 自演示版发布以来,OpenScholar 已有超过 3 万名用户和近 9 万次查询,每篇综述的成本仅为 0.01 至 0.05 美元。
📌 结论: 2026年2月4日《自然》杂志研究指出,仅拥有 80 亿参数、基于 4500 万篇论文训练的 OpenScholar 机器人在文献综述方面已超越博士及博士后。其核心优势在于深度与广度,综述字数远超人类。在通用模型虚假引用率高达 78–90% 的背景下,OpenScholar 在计算机和生物医学领域实现了零幻觉。

