- Les systèmes d’IA actuels manquent souvent de cohérence : objets déformés, espaces changeants et temps « brisé » dans les vidéos ou les simulations.
- La cause principale est que l’IA générative fonctionne selon un mécanisme de prédiction probabiliste, sans maintenir un modèle du monde continu pour mettre à jour sa compréhension.
- Les « world models » (modèles du monde) sont proposés comme solution, aidant l’IA à construire et à mettre à jour des cartes spatio-temporelles (4D : 3D + temps).
- Par exemple, l’IA vidéo actuelle ne se « souvient » pas de la chaise ou du collier d’un chien car elle manque d’un modèle de scène stable.
- De nouvelles recherches montrent que les world models 4D aident l’IA à maintenir la cohérence des objets et des mouvements.
- Des techniques comme NeRF (depuis 2020) permettent la reconstruction de scènes 3D sous plusieurs angles, mais restent dépendantes des données.
- De nouvelles études comme NeoVerse et TeleWorld transforment des vidéos uniques en modèles 4D pour générer des vidéos sous plusieurs angles.
- Les world models ne servent pas seulement à la vidéo, mais sont également cruciaux pour la RA, la robotique et les véhicules autonomes.
- Avec la RA, un world model aide les objets virtuels à rester immobiles, avec une occlusion correcte, un éclairage et une perspective logiques.
- Les robots et les véhicules autonomes peuvent utiliser des world models pour prédire les évolutions futures de l’environnement.
- Les benchmarks de 2025 montrent que l’IA visuelle-linguistique actuelle est presque aléatoire lorsqu’il s’agit de distinguer les trajectoires de mouvement.
- Les LLM comme ChatGPT ont une « compréhension implicite » du monde mais ne peuvent pas se mettre à jour en temps réel.
- OpenAI admet que GPT-4 n’apprend pas de l’expérience après le déploiement.
- De nombreux chercheurs pensent que l’AGI ne peut être atteinte sans world models dotés d’une mémoire spatio-temporelle.
- Les world models sont considérés comme la couche fondamentale, tandis que les LLM jouent le rôle de communication et de raisonnement linguistique.
- De grands noms se tournent vers les world models : Fei-Fei Li a fondé World Labs (2024), Yann LeCun a fondé AMI Labs (2025).
- La recherche DreamerV3 (Nature, avril 2025) montre qu’une IA dotée d’un world model peut « imaginer » l’avenir pour améliorer son comportement.
- Les world models 4D sont également des environnements de simulation sûrs pour tester l’IA avant son déploiement réel.
📌 Les systèmes d’IA actuels manquent souvent de cohérence : objets déformés, espaces changeants et temps « brisé » dans les vidéos ou les simulations. La cause principale est que l’IA générative fonctionne selon un mécanisme de prédiction probabiliste, sans maintenir un modèle du monde continu pour mettre à jour sa compréhension. Les world models émergent comme la fondation de la prochaine vague d’IA, résolvant la plus grande faiblesse actuelle de l’IA : le manque de compréhension stable de l’espace et du temps. De la vidéo, de la RA et de la robotique à l’AGI, la capacité de construire et de mettre à jour des modèles du monde continus pourrait déterminer si l’IA se contente d’« imiter » ou si elle comprend et agit réellement correctement dans le monde réel.

