- 2026년 2월 4일 Nature에 발표된 연구에 따르면, OpenScholar 챗봇이 과학 문헌 고찰(Literature Review) 작성 능력에서 박사(PhD) 및 박사후연구원(Postdoc)을 추월할 수 있는 것으로 나타났습니다.
- OpenScholar는 ChatGPT나 Llama 같은 기존 LLM들이 연구 자료 인용 시 보이는 ‘환각(hallucination)’ 현상을 극복하기 위해 미국 학자들에 의해 설계되었습니다.
- 컴퓨터 과학, 물리학, 신경 과학 및 의생명 분야 전문가들이 OpenScholar, ScholarQABench, 그리고 박사 과정생이 작성한 리뷰를 비교 평가했습니다.
- 결과적으로 OpenScholar는 51%의 사례에서 선택받았고, ScholarQABench는 70%에 달해 박사급 인력이 작성한 글보다 훨씬 높은 선호도를 보였습니다.
- 주요 우위는 정보의 포괄성과 깊이에서 나타났으며, 인간이 평균 424단어를 작성한 데 비해 OpenScholar는 평균 1,447단어(또는 706단어)를 작성했습니다.
- ChatGPT가 생성한 요약본은 내용의 포괄성 부족으로 31%의 사례에서만 선택받았습니다.
- 연구에 따르면 대중적인 LLM들은 78~90%의 사례에서 가짜 인용을 생성하며, 심지어 문헌 제목의 78~98%가 조작된 것으로 나타났습니다(특히 의생명 분야에서 심각).
- 반면, OpenScholar는 컴퓨터 과학 및 의생명 리뷰에서 환각 현상이 전혀 기록되지 않았습니다.
- 8B 규모의 OpenScholar 모델은 4,500만 편의 과학 논문으로 학습되었으며, 인용 정확도를 스스로 높이는 피드백 루프를 갖추고 있습니다.
- 데모 출시 이후 OpenScholar는 3만 명 이상의 사용자와 약 9만 건의 쿼리를 기록 중이며, 리뷰 작성 비용은 건당 0.01~0.05달러 수준입니다.
📌 결론: 2026년 2월 4일 Nature 연구에 따르면, 4,500만 편의 논문을 학습한 80억 매개변수 규모의 ‘OpenScholar’가 문헌 고찰에서 박사급을 추월했습니다. 정보의 깊이와 포괄성에서 압도적이며, 기존 LLM들이 인용의 대부분을 조작하는 것과 달리 컴퓨터 및 의생명 분야에서 ‘환각 제로’를 기록했습니다.

