- 現在のAIシステムは一貫性に欠けることがよくあります。動画やシミュレーションにおいて、物体が変形したり、空間が変化したり、時間が「途切れたり」します。
- 根本的な原因は、生成AIが確率的予測のメカニズムで動作しており、理解を更新するための連続的な世界モデルを維持していないことにあります。
- 解決策として世界モデルが提案されており、AIが時空間マップ(4D:3D + 時間)を構築・更新するのを助けます。
- 例えば、現在の動画AIは安定したシーンモデルがないため、犬の椅子や首輪を「記憶」していません。
- 新しい研究によると、4D世界モデルはAIが物体と動きの一貫性を維持するのに役立ちます。
- NeRF(2020年〜)のような技術は、多角的な視点から3Dシーンを再構築することを可能にしますが、依然としてデータに依存しています。
- NeoVerseやTeleWorldのような新しい研究は、単一の動画を4Dモデルに変換し、多角的な視点から動画を生成します。
- 世界モデルは動画だけでなく、AR、ロボット工学、自動運転車にとっても重要です。
- ARでは、世界モデルにより、仮想オブジェクトが静止し、適切に遮蔽され、光と遠近感が合理的になります。
- ロボットや自動運転車は、世界モデルを使用して環境の次の展開を予測できます。
- 2025年のベンチマークでは、現在の視覚言語AIは、動きの軌跡を区別する際にほぼランダムであることが示されています。
- ChatGPTのようなLLMは世界について「暗黙の理解」を持っていますが、リアルタイムで更新することはできません。
- OpenAIは、GPT-4が展開後の経験から学習しないことを認めています。
- 多くの研究者は、時空間記憶を持つ世界モデルなしではAGI(汎用人工知能)は達成できないと考えています。
- 世界モデルは基盤層と見なされ、LLMはコミュニケーションと言語的推論の役割を果たします。
- ビッグネームが世界モデルに転換しています:フェイ・フェイ・リー(Fei-Fei Li)がWorld Labsを設立(2024年)、ヤン・ルカン(Yann LeCun)がAMI Labsを設立(2025年)。
- DreamerV3の研究(Nature、2025年4月)は、世界モデルを持つAIが行動を改善するために未来を「想像」できることを示しています。
- 4D世界モデルは、実環境への展開前にAIをテストするための安全なシミュレーション環境でもあります。
📌 現在のAIシステムは一貫性に欠けることがよくあります。動画やシミュレーションにおいて、物体が変形したり、空間が変化したり、時間が「途切れたり」します。根本的な原因は、生成AIが確率的予測のメカニズムで動作しており、理解を更新するための連続的な世界モデルを維持していないことにあります。世界モデルは、現在のAIの最大の弱点である空間と時間の安定した理解の欠如を解決し、次のAIの波の基盤として浮上しています。動画、AR、ロボットからAGIに至るまで、連続的な世界モデルを構築し更新する能力は、AIが単に「模倣」するだけか、それとも現実世界を真に理解し正しく行動できるかを決定づける可能性があります。

