Skip to content
  1. Tyke’s Notes
  2. /告别“纸上谈兵”:为什么“世界模型”才是通往 AGI 的终极密码?
essayprojectreading

告别“纸上谈兵”:为什么“世界模型”才是通往 AGI 的终极密码?

当前大语言模型(LLM)在理解物理世界方面存在局限,无法像人类一样进行直观的物理预测。世界模型作为AI的“物理协处理器”,通过视觉、记忆和控制器的框架,帮助AI在内部模拟中进行决策。与LLM的语言处理不同,世界模型强调通过直接观察和模拟物理演化来理解世界。未来,世界模型将在机器人和自动驾驶等领域实现更高效的智能应用,同时也面临物理级别的风险和系统级幻觉。2026年将标志着AI从知识驱动向交互驱动的转变,推动AGI的实现。

Published 3/8/2026Updated 3/8/2026
粤ICP备2026008719号
  1. 1. 引言:AI 的“常识”危机与语义之困
  2. 2. 核心概念:V-M-C 框架与 AI 的“内部梦境”
  3. 3. Takeaway 1:LLM 在“说事”,而世界模型在“看与做”
  4. 4. Takeaway 2:大分歧——为什么杨立昆认为 LLM 可能是死路?
  5. 5. Takeaway 3:路线之争——Sora 的“皮”与 World Labs 的“骨”
  6. 视频生成派:OpenAI Sora / Google Genie
  7. 3D空间派:李飞飞 World Labs
  8. 6. Takeaway 4:具身智能的“降维打击”——从自动驾驶到机器人
  9. 7. Takeaway 5:重构内容产业——从“生产内容”到“演化文明”
  10. 8. 风险预警:致命的“系统级幻觉”
  11. 9. 结语:通往 AGI 的真实拐点

1. 引言:AI 的“常识”危机与语义之困

想象这样一个充满讽刺的场景:一个 AI 可以信手拈来写出足以在顶级期刊发表的量子物理论文,甚至能瞬间优化数千行复杂的底层代码。但当你问它“如果把桌边的一杯水轻轻推一下会发生什么”时,它可能只会基于文本统计的概率,吐出一段苍白的描述。它无法像一个刚学会爬行的婴儿那样,凭借视觉直觉预判水杯坠落的弧线,也无法真正体会重力在现实中的分量。

这种能力的断层,揭示了当前大语言模型(LLM)的本质局限:它们是“黑暗中的文字将军”。LLM 在纯粹的语义维度里纵横捭阖,却在物理世界的门槛前显得格外笨拙。随着 2026 年被业界预言为“世界模型”的全面爆发之年,AI 正迎来一场从“说事”到“看与做”的范式转移。如果 LLM 是 AI 的大脑皮层,那么世界模型(World Model)就是它急需补齐的“物理协处理器”。

2. 核心概念:V-M-C 框架与 AI 的“内部梦境”

“世界模型”并非凭空出世。早在 1943 年,心理学家 Kenneth Craik 就提出了“心智模型”(Mental Model):人类在行动前,会在脑中构建现实的微缩模拟。2018 年,David Ha 与 Jürgen Schmidhuber 在经典论文中将其形式化为 V-M-C 框架,并定义了 AI 理解物理世界的三个核心架构:

  • V(Vision,视觉):观察者。 它不仅负责录入像素,更要将原始的高维视觉流压缩为对决策至关重要的“潜在空间编码”(Latent Encoding)。
  • M(Memory,记忆):预言家。 这是大脑中的物理引擎。它接收 V 的编码并进行内部模拟:“如果我执行动作 A,世界在下一秒会变成什么样?”
  • C(Controller,控制器):执行者。 它不在现实中盲目试错,而是在 M 创造的内部世界中训练并寻找最优解。

“你并不需要真的拍 100 次球来试错,而是在内部世界的‘梦境’中找到最佳策略后,在现实中只执行那一次最优解。”

以打乒乓球为例:V 捕捉球的轨迹并滤除背景噪音;M 在脑海中瞬间预演球的落点;C 则在“梦境”中模拟挥拍动作。这种“脑内预演”的能力,是智能从符号迈向实体的第一步。

3. Takeaway 1:LLM 在“说事”,而世界模型在“看与做”

世界模型与 LLM 在底层逻辑上存在着难以调和的差异。李飞飞曾精准指出:“One is about saying things, the other one is about seeing and doing things.” 这种差异不仅体现在任务目标上,更体现在基本单元(Basic Units)的断裂上。

对比维度大语言模型 (LLM)世界模型 (World Model)
基本单元词元 (Lexic/Tokens)像素 (Pixels) 或 体素 (Voxels)
任务目标预测下一个词,生成语义序列预测下一帧/状态,模拟物理演化
数据依赖静态文本,间接理解物理视频、传感器、动态交互数据
本质角色知识容器 (Saying)物理引擎 (Seeing & Doing)

LLM 通过语言这层滤镜间接观察世界;而世界模型则试图通过像素,乃至体素(3D 空间的体积像素),直接还原世界的几何骨架。

4. Takeaway 2:大分歧——为什么杨立昆认为 LLM 可能是死路?

图灵奖得主杨立昆(Yann LeCun)的观点极具冲击力:他认为基于自回归的 LLM 无法通往真正的 AGI。这源于著名的“莫拉维克悖论”(Moravec's Paradox):对 AI 来说,下棋和微积分很容易,但像人类一样走路、感知等“初级技能”却极其困难。

LeCun 认为 LLM 只是在模仿语言的统计相关性,对现实世界几乎没有直觉。他提出的 JEPA(联合嵌入预测架构) 则代表了另一条激进路径:

  • 摒弃像素级预测: 传统的视频生成模型浪费了大量算力去画水花的细节,这在逻辑推理中毫无意义。
  • 预测抽象结构: JEPA 只在高度抽象的“潜空间”中预测未来状态。这种“不画出世界”的思路,反而更接近人类的因果逻辑。

然而,JEPA 至今未成主流。 业内分析认为,这受限于其“前额叶功能”的实现难度:如何设计自监督目标?如何在缺乏统一 Benchmark 的情况下衡量潜空间表征的质量?这些难题让 JEPA 目前仍像是停留在实验室阶段的“天才构想”。

5. Takeaway 3:路线之争——Sora 的“皮”与 World Labs 的“骨”

在世界生成的实践中,产业界分化出两条截然不同的路线:

视频生成派:OpenAI Sora / Google Genie

  • 逻辑: 试图通过海量视频数据的Scaling Law,让模型“隐式”学到物理规律。
  • 痛点: 这是一种“技能驱动”(Skill-driven)的概率模型。它画出了世界的一层皮,表现力震撼,但缺乏显式的几何结构。
  • 架构矛盾: 如果你问Sora一辆行驶的车长宽高是多少,或者被遮挡的轮胎在哪里,它无法回答。因为它预测的是像素分布,而非物理实体的连续性。

3D空间派:李飞飞 World Labs

  • 逻辑: “空间智能”。认为AI必须理解3D空间才能理解时间。其Marble模型主张通过一张图重建3D网格(Mesh)或高斯泼溅。
  • 优势: 这是“结构驱动”。它将世界“建”出来而非“画”出来,直接输出3D网格文件,让物理模拟和机器人控制变得有据可循。
  • 估值逻辑: 尽管3D数据极度匮乏且计算成本高昂,但World Labs凭借这种“显性骨架”的战略意义,在成立一年半内估值飙升至50亿美元。

6. Takeaway 4:具身智能的“降维打击”——从自动驾驶到机器人

世界模型正在解决现实产业中最致命的长尾场景:

  • 机器人: 改变“硬编码”现状。有了世界模型,机器人可以在虚拟梦境中自主练习,具备跨场景的迁移能力。它能先在脑中模拟“推开这扇门会发生什么”,从而跨越“Sim-to-Real”的鸿沟。
  • 自动驾驶: Waymo等巨头正从“感知-规划”分层体系转向“分段式端到端”的Foundation Model。这种架构不仅输出驾驶指令,还必须输出对世界结构的中间表征。系统不再是单纯的反应器,而是具备预判能力的模拟器,在内部推演数千条路径以筛选最安全的一条。

7. Takeaway 5:重构内容产业——从“生产内容”到“演化文明”

世界模型将彻底颠覆内容产业的成本结构:

  • “即时生成”(Fly Generation): 未来的游戏不再需要程序员写死每一条交互规则。设计师只需给定世界观,AI 就能通过“世界生成”即时演化出森林的生长规律、NPC 的记忆与经济系统。
  • 文明演化: 谷歌的Genie系列已实现从视频播放到实时交互的跨越,你可以“进入”一张照片并与其物理逻辑互动。

“如果世界模型能实现在根本程度上的泛化,产生超越人类水平的新科学或新规律,它将具备创造一种新文明的能力。” —— 陈宇北

8. 风险预警:致命的“系统级幻觉”

不同于 LLM 只是在文字里“胡说八道”,世界模型的风险是物理级别的。

  • Sim-to-Real Gap: 虚拟梦境永远无法完美对齐真实物理。如果 AI 在内部模型中误判了重力或碰撞后果,它在现实中执行的任务可能是致命的——比如机器人误判了力量,导致骨折事故。
  • 隐蔽性: 世界模型的幻觉藏在高维潜空间中,不可见且难以审计。这种“系统级误导”比文字谎言更难对齐与监管。

9. 结语:通往 AGI 的真实拐点

2026 年,AI 将正式从“知识驱动”转向“交互驱动”。世界模型的到来,补齐了 AI 大脑中缺失的物理维度,让它从一个渊博的“文字将军”进化为能感知、能模拟、能行动的实体智能。

最后思考: 当 AI 不仅能回答你的问题,还能在它预见的未来里替你推演并做出最优决策时,人类究竟是这个新世界的观察者,还是被智能体代理的被动参与者?我们正在见证 AI 从“表层智能”向“深层智能”的跨越,这也许正是通往 AGI 最真实的一道拐点。

On this page

  1. 1. 引言:AI 的“常识”危机与语义之困
  2. 2. 核心概念:V-M-C 框架与 AI 的“内部梦境”
  3. 3. Takeaway 1:LLM 在“说事”,而世界模型在“看与做”
  4. 4. Takeaway 2:大分歧——为什么杨立昆认为 LLM 可能是死路?
  5. 5. Takeaway 3:路线之争——Sora 的“皮”与 World Labs 的“骨”
  6. 视频生成派:OpenAI Sora / Google Genie
  7. 3D空间派:李飞飞 World Labs
  8. 6. Takeaway 4:具身智能的“降维打击”——从自动驾驶到机器人
  9. 7. Takeaway 5:重构内容产业——从“生产内容”到“演化文明”
  10. 8. 风险预警:致命的“系统级幻觉”
  11. 9. 结语:通往 AGI 的真实拐点