新型聊天机器人写科学综述表现超越博士，震惊学界

2026年2月4日发表在《自然》（Nature）杂志上的一项研究显示，OpenScholar 聊天机器人在撰写科学文献综述方面可以超越博士和博士后。
OpenScholar 由美国学者设计，旨在解决 ChatGPT 或 Llama 等大语言模型在引用研究文献时常见的“幻觉”问题。
计算机科学、物理学、神经科学和生物医学领域的专家对比了由 OpenScholar、ScholarQABench 和博士生撰写的综述。
结果显示，OpenScholar 在 51% 的案例中更受欢迎，而 ScholarQABench 达到了 70%，显著高于博士撰写的文章。
主要优势在于信息的覆盖面和深度，OpenScholar 生成的综述平均长达 1447 字（或 706 字），而人类撰写的平均仅为 424 字。
ChatGPT 生成的摘要仅在 31% 的案例中受到青睐，原因是内容不够全面。
研究指出，通用大语言模型在 78-90% 的情况下会生成虚假引用，甚至 78-98% 的文献标题是伪造的，这在生物医学领域尤为严重。
相比之下，OpenScholar 在计算机科学和生物医学综述中未记录到任何幻觉。
OpenScholar 的 8B 模型基于 4500 万篇科学论文进行训练，构建了自动提高引用准确性的反馈闭环。
自演示版发布以来，OpenScholar 已有超过 3 万名用户和近 9 万次查询，每篇综述的成本仅为 0.01 至 0.05 美元。

📌 结论： 2026年2月4日《自然》杂志研究指出，仅拥有 80 亿参数、基于 4500 万篇论文训练的 OpenScholar 机器人在文献综述方面已超越博士及博士后。其核心优势在于深度与广度，综述字数远超人类。在通用模型虚假引用率高达 78–90% 的背景下，OpenScholar 在计算机和生物医学领域实现了零幻觉。

What's Hot

DeepSeek与小米让先进AI降价高达99%，对OpenAI和Anthropic造成巨大压力

中国开办全球首个通用人形机器人学校，百余台机器人共同学习

AI威胁“四大”会计师事务所：原生AI咨询初创公司凭借代理式AI增长50%

新型聊天机器人写科学综述表现超越博士，震惊学界

DeepSeek与小米让先进AI降价高达99%，对OpenAI和Anthropic造成巨大压力

中国开办全球首个通用人形机器人学校，百余台机器人共同学习

AI威胁“四大”会计师事务所：原生AI咨询初创公司凭借代理式AI增长50%

DeepSeek与小米让先进AI降价高达99%，对OpenAI和Anthropic造成巨大压力

中国开办全球首个通用人形机器人学校，百余台机器人共同学习

AI威胁“四大”会计师事务所：原生AI咨询初创公司凭借代理式AI增长50%

纽约时报爆发AI危机：员工指控公司利用AI监视劳动

联系方式

What's Hot

新型聊天机器人写科学综述表现超越博士，震惊学界

Related Posts

联系方式