李飞飞在Figma抛出一个狠观点：AI会看还不够，必须会动

AI PM 编辑部 · 2024年07月12日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

在Figma Config 2024，李飞飞用一段“没有眼睛的远古海洋”开场，讲清了一个被严重低估的事实：过去十年AI最大的瓶颈，不是模型不够大，而是只会看、不会动。这场演讲，实际上是在给下一代AI定方向。

在Figma Config 2024，李飞飞用一段“没有眼睛的远古海洋”开场，讲清了一个被严重低估的事实：过去十年AI最大的瓶颈，不是模型不够大，而是只会看、不会动。这场演讲，实际上是在给下一代AI定方向。

李飞飞没有从模型、参数或算力讲起，而是把时间拨回到5.4亿年前。那时地球并不缺光，而是“没有任何生物能看见”。直到三叶虫出现，第一次感知光，寒武纪生命大爆发才被点燃。

她用这个隐喻直接击中当下AI的要害：今天的AI，正像那个“有光但无眼”的世界。我们有海量数据、有算力、有神经网络，但大多数系统仍停留在“被动看见”。

她那句贯穿全场的判断极具挑衅性：“Taking a picture is not the same as seeing and understanding it.” 随后又补了一刀——“仅仅看见还不够，看见是为了行动。” 这不是哲学，而是对过去十年计算机视觉路线的反思。

李飞飞当然没有否认过去十年的巨大成功。她亲手推动的ImageNet，加上神经网络、GPU和大规模数据，直接开启了现代AI时代。最早只是“给图片打标签”，随后是分割、关系理解、视频中的动态交互。

接着，是那段几乎所有从业者都有共鸣的故事：她让Andrej Karpathy尝试“反向任务”——从文字生成图像。当年被笑称“不可能”，如今扩散模型、Sora 已经把这件事变成日常工具。

但她刻意展示了生成模型的“失败案例”：猫的眼睛在水下却没被打湿。不是为了嘲笑模型，而是提醒我们——这些系统并不真正理解物理世界。它们学会了相关性，却没有行动与反馈构成的闭环。

在她看来，这是整个行业的集体误判：我们把“生成得像”当成了“理解得深”。

演讲的核心转折点出现在一句话：“Seeing is for doing and learning.”

她用一个简单却精准的例子说明什么是空间智能：一只猫即将碰倒桌上的玻璃杯。人类几乎是下意识地预测轨迹、评估重力、规划动作，并在大脑中完成整套物理推演。

这正是当前AI最薄弱的能力。为此，她展示了一系列最新进展：
- 从多张图片重建3D世界，到只用一张图生成三维结构
- 从一句文本生成3D房间布局，用于设计与空间创作
- 从单一视角扩展出“无限可探索空间”的模型原型

这些工作共同指向一个目标：让AI不只是识别像素，而是理解3D世界中的因果、几何与可能行动。她称之为新一轮“数字寒武纪”的前奏。

空间智能的终点不是炫技，而是“具身智能”。李飞飞把ImageNet类比为“教会AI看”，而现在她的实验室在做的是“教会AI行动”。

通过大规模3D仿真环境，机器人不再依赖人工标注，而是在模拟世界中学习行为。再叠加大语言模型，机器人开始理解自然语言指令：避开花瓶、开抽屉、做三明治。

最震撼的落点在医疗场景：从感知医护行为的环境智能，到用脑电信号控制机器人完成烹饪。这不是科幻，而是她实验室正在进行的试点研究。

她反复强调一句话：如果做对了，空间智能AI不会只是工具，而会成为“值得信任的伙伴”。

李飞飞这场演讲真正的价值，不在于展示了多少炫目的demo，而是重新定义了AI的“下一跳”。如果你还只盯着多模态、生成质量和参数规模，可能已经慢了一拍。真正的分水岭，是AI能否进入3D世界，形成“看—做—学”的闭环。

对从业者来说，行动建议很现实：关注空间建模、仿真环境、机器人学习，而不仅是文本或图像生成。下一个十年的核心竞争力，很可能不在更大的模型，而在谁能让AI第一次真正“动起来”。

关键词：李飞飞，空间智能，计算机视觉，生成式AI，具身智能

事实核查备注：李飞飞在Figma Config 2024的演讲时间与主题；ImageNet由李飞飞团队创建；Andrej Karpathy与图像描述/生成研究的历史表述；Sora为OpenAI公开视频生成模型；脑电信号控制机器人为实验性研究展示