告别“纸上谈兵”：为什么“世界模型”才是通往 AGI 的终极密码？

当前大语言模型（LLM）在理解物理世界方面存在局限，无法像人类一样进行直观的物理预测。世界模型作为AI的“物理协处理器”，通过视觉、记忆和控制器的框架，帮助AI在内部模拟中进行决策。与LLM的语言处理不同，世界模型强调通过直接观察和模拟物理演化来理解世界。未来，世界模型将在机器人和自动驾驶等领域实现更高效的智能应用，同时也面临物理级别的风险和系统级幻觉。2026年将标志着AI从知识驱动向交互驱动的转变，推动AGI的实现。

1. 引言：AI 的“常识”危机与语义之困

想象这样一个充满讽刺的场景：一个 AI 可以信手拈来写出足以在顶级期刊发表的量子物理论文，甚至能瞬间优化数千行复杂的底层代码。但当你问它“如果把桌边的一杯水轻轻推一下会发生什么”时，它可能只会基于文本统计的概率，吐出一段苍白的描述。它无法像一个刚学会爬行的婴儿那样，凭借视觉直觉预判水杯坠落的弧线，也无法真正体会重力在现实中的分量。

这种能力的断层，揭示了当前大语言模型（LLM）的本质局限：它们是“黑暗中的文字将军”。LLM 在纯粹的语义维度里纵横捭阖，却在物理世界的门槛前显得格外笨拙。随着 2026 年被业界预言为“世界模型”的全面爆发之年，AI 正迎来一场从“说事”到“看与做”的范式转移。如果 LLM 是 AI 的大脑皮层，那么世界模型（World Model）就是它急需补齐的“物理协处理器”。

2. 核心概念：V-M-C 框架与 AI 的“内部梦境”

“世界模型”并非凭空出世。早在 1943 年，心理学家 Kenneth Craik 就提出了“心智模型”（Mental Model）：人类在行动前，会在脑中构建现实的微缩模拟。2018 年，David Ha 与 Jürgen Schmidhuber 在经典论文中将其形式化为 V-M-C 框架，并定义了 AI 理解物理世界的三个核心架构：

V（Vision，视觉）：观察者。它不仅负责录入像素，更要将原始的高维视觉流压缩为对决策至关重要的“潜在空间编码”（Latent Encoding）。
M（Memory，记忆）：预言家。这是大脑中的物理引擎。它接收 V 的编码并进行内部模拟：“如果我执行动作 A，世界在下一秒会变成什么样？”
C（Controller，控制器）：执行者。它不在现实中盲目试错，而是在 M 创造的内部世界中训练并寻找最优解。

“你并不需要真的拍 100 次球来试错，而是在内部世界的‘梦境’中找到最佳策略后，在现实中只执行那一次最优解。”

以打乒乓球为例：V 捕捉球的轨迹并滤除背景噪音；M 在脑海中瞬间预演球的落点；C 则在“梦境”中模拟挥拍动作。这种“脑内预演”的能力，是智能从符号迈向实体的第一步。

3. Takeaway 1：LLM 在“说事”，而世界模型在“看与做”

世界模型与 LLM 在底层逻辑上存在着难以调和的差异。李飞飞曾精准指出：“One is about saying things, the other one is about seeing and doing things.” 这种差异不仅体现在任务目标上，更体现在基本单元（Basic Units）的断裂上。

对比维度	大语言模型 (LLM)	世界模型 (World Model)
基本单元	词元 (Lexic/Tokens)	像素 (Pixels) 或体素 (Voxels)
任务目标	预测下一个词，生成语义序列	预测下一帧/状态，模拟物理演化
数据依赖	静态文本，间接理解物理	视频、传感器、动态交互数据
本质角色	知识容器 (Saying)	物理引擎 (Seeing & Doing)

LLM 通过语言这层滤镜间接观察世界；而世界模型则试图通过像素，乃至体素（3D 空间的体积像素），直接还原世界的几何骨架。

4. Takeaway 2：大分歧——为什么杨立昆认为 LLM 可能是死路？

图灵奖得主杨立昆（Yann LeCun）的观点极具冲击力：他认为基于自回归的 LLM 无法通往真正的 AGI。这源于著名的“莫拉维克悖论”（Moravec's Paradox）：对 AI 来说，下棋和微积分很容易，但像人类一样走路、感知等“初级技能”却极其困难。

LeCun 认为 LLM 只是在模仿语言的统计相关性，对现实世界几乎没有直觉。他提出的 JEPA（联合嵌入预测架构）则代表了另一条激进路径：

摒弃像素级预测：传统的视频生成模型浪费了大量算力去画水花的细节，这在逻辑推理中毫无意义。
预测抽象结构： JEPA 只在高度抽象的“潜空间”中预测未来状态。这种“不画出世界”的思路，反而更接近人类的因果逻辑。

然而，JEPA 至今未成主流。业内分析认为，这受限于其“前额叶功能”的实现难度：如何设计自监督目标？如何在缺乏统一 Benchmark 的情况下衡量潜空间表征的质量？这些难题让 JEPA 目前仍像是停留在实验室阶段的“天才构想”。

5. Takeaway 3：路线之争——Sora 的“皮”与 World Labs 的“骨”

在世界生成的实践中，产业界分化出两条截然不同的路线：

视频生成派：OpenAI Sora / Google Genie

逻辑：试图通过海量视频数据的Scaling Law，让模型“隐式”学到物理规律。
痛点：这是一种“技能驱动”（Skill-driven）的概率模型。它画出了世界的一层皮，表现力震撼，但缺乏显式的几何结构。
架构矛盾：如果你问Sora一辆行驶的车长宽高是多少，或者被遮挡的轮胎在哪里，它无法回答。因为它预测的是像素分布，而非物理实体的连续性。

3D空间派：李飞飞 World Labs

逻辑： “空间智能”。认为AI必须理解3D空间才能理解时间。其Marble模型主张通过一张图重建3D网格（Mesh）或高斯泼溅。
优势：这是“结构驱动”。它将世界“建”出来而非“画”出来，直接输出3D网格文件，让物理模拟和机器人控制变得有据可循。
估值逻辑：尽管3D数据极度匮乏且计算成本高昂，但World Labs凭借这种“显性骨架”的战略意义，在成立一年半内估值飙升至50亿美元。

6. Takeaway 4：具身智能的“降维打击”——从自动驾驶到机器人

世界模型正在解决现实产业中最致命的长尾场景：

机器人：改变“硬编码”现状。有了世界模型，机器人可以在虚拟梦境中自主练习，具备跨场景的迁移能力。它能先在脑中模拟“推开这扇门会发生什么”，从而跨越“Sim-to-Real”的鸿沟。
自动驾驶： Waymo等巨头正从“感知-规划”分层体系转向“分段式端到端”的Foundation Model。这种架构不仅输出驾驶指令，还必须输出对世界结构的中间表征。系统不再是单纯的反应器，而是具备预判能力的模拟器，在内部推演数千条路径以筛选最安全的一条。

7. Takeaway 5：重构内容产业——从“生产内容”到“演化文明”

世界模型将彻底颠覆内容产业的成本结构：

“即时生成”（Fly Generation）：未来的游戏不再需要程序员写死每一条交互规则。设计师只需给定世界观，AI 就能通过“世界生成”即时演化出森林的生长规律、NPC 的记忆与经济系统。
文明演化：谷歌的Genie系列已实现从视频播放到实时交互的跨越，你可以“进入”一张照片并与其物理逻辑互动。

“如果世界模型能实现在根本程度上的泛化，产生超越人类水平的新科学或新规律，它将具备创造一种新文明的能力。” —— 陈宇北

8. 风险预警：致命的“系统级幻觉”

不同于 LLM 只是在文字里“胡说八道”，世界模型的风险是物理级别的。

Sim-to-Real Gap：虚拟梦境永远无法完美对齐真实物理。如果 AI 在内部模型中误判了重力或碰撞后果，它在现实中执行的任务可能是致命的——比如机器人误判了力量，导致骨折事故。
隐蔽性：世界模型的幻觉藏在高维潜空间中，不可见且难以审计。这种“系统级误导”比文字谎言更难对齐与监管。

9. 结语：通往 AGI 的真实拐点

2026 年，AI 将正式从“知识驱动”转向“交互驱动”。世界模型的到来，补齐了 AI 大脑中缺失的物理维度，让它从一个渊博的“文字将军”进化为能感知、能模拟、能行动的实体智能。

最后思考：当 AI 不仅能回答你的问题，还能在它预见的未来里替你推演并做出最优决策时，人类究竟是这个新世界的观察者，还是被智能体代理的被动参与者？我们正在见证 AI 从“表层智能”向“深层智能”的跨越，这也许正是通往 AGI 最真实的一道拐点。