- Uno studio pubblicato su Nature il 4 febbraio 2026 mostra che il chatbot OpenScholar può superare i dottori di ricerca (PhD) e i post-doc nella scrittura di revisioni della letteratura scientifica.
- OpenScholar è stato progettato da studiosi statunitensi per correggere il fenomeno delle “allucinazioni” comuni in LLM come ChatGPT o Llama durante la citazione di materiali di ricerca.
- Esperti in informatica, fisica, neuroscienze e biomedicina hanno confrontato le revisioni scritte da OpenScholar, ScholarQABench e dottorandi.
- I risultati mostrano che OpenScholar è stato preferito nel 51% dei casi, mentre ScholarQABench ha raggiunto il 70%, significativamente più alto degli articoli scritti dai PhD.
- Il vantaggio principale deriva dalla copertura e dalla profondità delle informazioni, con revisioni lunghe in media 1.447 parole (OpenScholar) o 706 parole, rispetto alle 424 parole degli umani.
- I riassunti generati da ChatGPT sono stati preferiti solo nel 31% dei casi a causa della mancanza di completezza del contenuto.
- Lo studio indica che i comuni LLM generano citazioni false nel 78–90% dei casi, e persino il 78–98% dei titoli dei documenti è inventato, particolarmente grave in ambito biomedico.
- Al contrario, OpenScholar non ha registrato allucinazioni nelle revisioni di informatica e biomedicina.
- Il modello 8B di OpenScholar è stato addestrato su 45 milioni di articoli scientifici, creando un ciclo di feedback per l’auto-miglioramento della precisione delle citazioni.
- Dal lancio della demo, OpenScholar ha superato i 30.000 utenti con quasi 90.000 query; il costo per ogni revisione varia da soli 0,01 USD a 0,05 USD.
📌 Conclusione: Uno studio su Nature (4 feb 2026) rivela che il chatbot OpenScholar, con soli 8 miliardi di parametri e addestrato su 45 milioni di articoli, supera PhD e post-doc nelle revisioni scientifiche. Il punto di forza è la profondità informativa (1.447 parole vs 424 umane). Mentre gli LLM comuni inventano citazioni nel 78-90% dei casi, OpenScholar ha registrato zero allucinazioni in informatica e biomedicina.

