- Un professeur de psychologie norvégien a découvert qu’un article qu’il devait réviser citait ses propres travaux, sauf que cette recherche n’existait pas : un exemple flagrant de « citation hallucinées » causées par l’IA générative.
- Ce phénomène se propage dans le milieu universitaire, des revues prestigieuses aux rapports politiques, montrant que l’IA générative érode la crédibilité de l’édition scientifique.
- Le volume de soumissions aux revues a explosé depuis la popularisation des grands modèles de langage, poussé par des gains de productivité légitimes mais aussi par une fraude organisée.
- Les « usines à articles » vendent des travaux de recherche produits en série, réutilisant des modèles de textes et d’images, particulièrement dans des domaines comme la recherche sur le cancer, la blockchain et l’IA.
- L’IA ne se contente pas d’écrire du texte, elle crée aussi de fausses images scientifiques (histologie, gels d’électrophorèse, illustrations biologiques erronées) qui passent pourtant l’examen par les pairs.
- Certaines grandes conférences sur l’IA ont vu leurs soumissions doubler en 5 ans ; plus de 50 articles contenant des citations fabriquées ont franchi l’étape de la révision.
- Environ 50 % des révisions dans certaines conférences sont rédigées avec l’aide de l’IA, et environ 20 % sont entièrement générées par l’IA.
- Les serveurs de prépublication comme arXiv, bioRxiv, medRxiv voient également une vague d’articles IA, avec des cas d’auteurs jamais publiés soumettant jusqu’à 50 articles par an.
- Si le niveau de « bruit » dépasse celui du « signal », la communauté scientifique risque une crise existentielle où le savoir réel est submergé.
Conclusion : Les soumissions aux grandes conférences IA ont doublé en 5 ans ; plus de 50 articles aux citations factices ont été validés. Plus de 50 % des évaluations sont assistées par l’IA, 20 % sont 100 % IA. Les soumissions ont bondi avec les LLM et la fraude. La science fait face à une « pollution cognitive » durable : l’IA écrit – l’IA révise – l’IA réapprend à partir de ses propres déchets de données.
