李飞飞在Figma抛出一个狠观点:AI会看还不够,必须会动

AI PM 编辑部 · 2024年07月12日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

在Figma Config 2024,李飞飞用一段“没有眼睛的远古海洋”开场,讲清了一个被严重低估的事实:过去十年AI最大的瓶颈,不是模型不够大,而是只会看、不会动。这场演讲,实际上是在给下一代AI定方向。

李飞飞在Figma抛出一个狠观点:AI会看还不够,必须会动

在Figma Config 2024,李飞飞用一段“没有眼睛的远古海洋”开场,讲清了一个被严重低估的事实:过去十年AI最大的瓶颈,不是模型不够大,而是只会看、不会动。这场演讲,实际上是在给下一代AI定方向。

540百万年前没有“视觉”,今天的AI正处在同一刻

李飞飞没有从模型、参数或算力讲起,而是把时间拨回到5.4亿年前。那时地球并不缺光,而是“没有任何生物能看见”。直到三叶虫出现,第一次感知光,寒武纪生命大爆发才被点燃。

她用这个隐喻直接击中当下AI的要害:今天的AI,正像那个“有光但无眼”的世界。我们有海量数据、有算力、有神经网络,但大多数系统仍停留在“被动看见”。

她那句贯穿全场的判断极具挑衅性:“Taking a picture is not the same as seeing and understanding it.” 随后又补了一刀——“仅仅看见还不够,看见是为了行动。” 这不是哲学,而是对过去十年计算机视觉路线的反思。

从ImageNet到生成式AI:我们误以为终点已经到了

李飞飞当然没有否认过去十年的巨大成功。她亲手推动的ImageNet,加上神经网络、GPU和大规模数据,直接开启了现代AI时代。最早只是“给图片打标签”,随后是分割、关系理解、视频中的动态交互。

接着,是那段几乎所有从业者都有共鸣的故事:她让Andrej Karpathy尝试“反向任务”——从文字生成图像。当年被笑称“不可能”,如今扩散模型、Sora 已经把这件事变成日常工具。

但她刻意展示了生成模型的“失败案例”:猫的眼睛在水下却没被打湿。不是为了嘲笑模型,而是提醒我们——这些系统并不真正理解物理世界。它们学会了相关性,却没有行动与反馈构成的闭环。

在她看来,这是整个行业的集体误判:我们把“生成得像”当成了“理解得深”。

真正的分水岭:空间智能,把感知和行动绑在一起

演讲的核心转折点出现在一句话:“Seeing is for doing and learning.”

她用一个简单却精准的例子说明什么是空间智能:一只猫即将碰倒桌上的玻璃杯。人类几乎是下意识地预测轨迹、评估重力、规划动作,并在大脑中完成整套物理推演。

这正是当前AI最薄弱的能力。为此,她展示了一系列最新进展:
- 从多张图片重建3D世界,到只用一张图生成三维结构
- 从一句文本生成3D房间布局,用于设计与空间创作
- 从单一视角扩展出“无限可探索空间”的模型原型

这些工作共同指向一个目标:让AI不只是识别像素,而是理解3D世界中的因果、几何与可能行动。她称之为新一轮“数字寒武纪”的前奏。

当AI学会“做事”,机器人和人类关系会彻底改变

空间智能的终点不是炫技,而是“具身智能”。李飞飞把ImageNet类比为“教会AI看”,而现在她的实验室在做的是“教会AI行动”。

通过大规模3D仿真环境,机器人不再依赖人工标注,而是在模拟世界中学习行为。再叠加大语言模型,机器人开始理解自然语言指令:避开花瓶、开抽屉、做三明治。

最震撼的落点在医疗场景:从感知医护行为的环境智能,到用脑电信号控制机器人完成烹饪。这不是科幻,而是她实验室正在进行的试点研究。

她反复强调一句话:如果做对了,空间智能AI不会只是工具,而会成为“值得信任的伙伴”。

总结

李飞飞这场演讲真正的价值,不在于展示了多少炫目的demo,而是重新定义了AI的“下一跳”。如果你还只盯着多模态、生成质量和参数规模,可能已经慢了一拍。真正的分水岭,是AI能否进入3D世界,形成“看—做—学”的闭环。

对从业者来说,行动建议很现实:关注空间建模、仿真环境、机器人学习,而不仅是文本或图像生成。下一个十年的核心竞争力,很可能不在更大的模型,而在谁能让AI第一次真正“动起来”。


关键词: 李飞飞, 空间智能, 计算机视觉, 生成式AI, 具身智能

事实核查备注: 李飞飞在Figma Config 2024的演讲时间与主题;ImageNet由李飞飞团队创建;Andrej Karpathy与图像描述/生成研究的历史表述;Sora为OpenAI公开视频生成模型;脑电信号控制机器人为实验性研究展示