- 目前的 AI 系统通常缺乏一致性:在视频或模拟中,物体变形、空间改变、时间“断裂”。
- 核心原因在于生成式 AI 按照概率预测机制运行,没有维持一个连续的世界模型来更新其认知。
- 世界模型(World models)被作为解决方案提出,帮助 AI 构建和更新时空地图(4D:3D + 时间)。
- 例如,目前的视频 AI 不会“记住”狗的椅子或项圈,因为它缺乏稳定的场景模型。
- 新研究表明,4D 世界模型有助于 AI 保持物体和运动的一致性。
- NeRF(始于 2020 年)等技术允许从多个角度重建 3D 场景,但仍依赖于数据。
- NeoVerse 和 TeleWorld 等新研究将单个视频转换为 4D 模型,以便从多个角度生成视频。
- 世界模型不仅服务于视频,对 AR、机器人和自动驾驶汽车也至关重要。
- 在 AR 中,世界模型帮助虚拟物体保持静止、正确遮挡,并具有合理的光照和透视。
- 机器人和自动驾驶汽车可以使用世界模型来预测环境的后续发展。
- 2025 年的基准测试显示,目前的视觉-语言 AI 在区分运动轨迹时几乎是随机的。
- 像 ChatGPT 这样的 LLM 对世界有“隐性理解”,但无法实时更新。
- OpenAI 承认 GPT-4 在部署后不会从经验中学习。
- 许多研究人员认为,如果缺乏具有时空记忆的世界模型,就无法实现通用人工智能(AGI)。
- 世界模型被视为基础层,而 LLM 扮演沟通和语言推理的角色。
- 大人物们正转向世界模型:李飞飞(Fei-Fei Li)创立了 World Labs(2024 年),Yann LeCun 创立了 AMI Labs(2025 年)。
- 关于 DreamerV3 的研究(《自然》杂志,2025 年 4 月)表明,拥有世界模型的 AI 可以“想象”未来以改善行为。
- 4D 世界模型也是在实际部署前测试 AI 的安全模拟环境。
📌 目前的 AI 系统通常缺乏一致性:在视频或模拟中,物体变形、空间改变、时间“断裂”。核心原因在于生成式 AI 按照概率预测机制运行,没有维持一个连续的世界模型来更新其认知。世界模型正作为下一波 AI 浪潮的基础而兴起,解决了目前 AI 最大的弱点:缺乏对空间和时间的稳定理解。从视频、AR、机器人到 AGI,构建和不断更新世界模型的能力可能决定 AI 是仅仅在“模仿”,还是真正在现实世界中理解并正确行动。

