不教力学、不讲公式,他让神经网络自己“悟”出物理世界

AI PM 编辑部 · 2020年07月02日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你不告诉模型什么是力、速度和动量,它还能理解世界吗?在 OpenAI Scholars Demo Day 上,Ifu Aniemeka 用一个看似“幼稚”的实验给出了惊人答案:只靠观察,神经网络真的能学会预测物体运动。这不是炫技,而是世界模型的一次重要试探。

不教力学、不讲公式,他让神经网络自己“悟”出物理世界

如果你不告诉模型什么是力、速度和动量,它还能理解世界吗?在 OpenAI Scholars Demo Day 上,Ifu Aniemeka 用一个看似“幼稚”的实验给出了惊人答案:只靠观察,神经网络真的能学会预测物体运动。这不是炫技,而是世界模型的一次重要试探。

最反直觉的设定:我们刻意不教模型“物理学”

这次分享最炸的一点,不是网络有多深、参数有多少,而是刻意拿走了人类最引以为傲的那套物理概念。没有力、没有动量、没有角速度,甚至没有摩擦。

Ifu 的目标非常明确:像婴儿一样学习世界。人类在一岁左右就能完成一件惊人的事——预测物体的运动轨迹。你扔一个球,不需要心里默算抛物线公式;你看到球飞出去,就“知道”它会落在哪里。这种能力并不是被显式教学出来的,而是从连续观察中形成的直觉。

Physics Net 的野心就在这里:让模型通过时间序列的视觉输入,自发形成对物理世界的直觉式理解。这也是世界模型(World Model)路线最核心、也最难的一步——不是拟合数据,而是捕捉“世界是怎么运转的”。

一个看似简单、却极具深意的实验环境

为了避免复杂因素干扰,Ifu 选择了一个极度“干净”的模拟世界:用 JavaScript 物理引擎生成二维环境,只有彩色小球和灰色墙壁。

这里的设定很反现实:所有碰撞完全弹性,没有旋转,没有摩擦,没有空气阻力。球一旦被赋予初速度,就会永远运动下去。对人类来说,这种场景几乎是“一眼就懂”的:你能立刻预判下一帧每个球的位置。

而模型的任务非常纯粹:输入连续两帧画面,预测第三帧。没有显式状态、没有坐标监督,只有像素到像素的学习。

架构上,他使用的是卷积自编码器:把两张图像在通道维度上堆叠,编码成潜在表示,再解码成下一时刻的画面。听起来不新,但关键在于——它学到的不是一张“像”的图片,而是运动规律本身

训练过程比结果更重要:从一片灰色到“理解运动”

如果你只看最终效果,会错过这个项目最有价值的部分。

在最初的几千个 epoch,模型几乎什么都没学会:输出是一整块灰色。再往后,它开始“意识到”世界里有边界,于是生成了白色的墙,但颜色是错的,盒子里还是空的。

到了四五千个 epoch,墙的颜色对了;六千个之后,画面里开始出现模糊的色块——这是球的雏形。再往后,这些色块逐渐凝聚成稳定的圆形,位置和速度都越来越准。

这个过程本身就像一次显微镜下的认知发育:模型不是被告知“球应该是圆的”,而是在预测失败中不断修正,最终发现‘把像素聚在一起’能更好地解释世界

当然,问题也很明显:颜色闪烁、轻微模糊、长时间预测会漂移。但这恰恰暴露了世界模型真正的难点——不是能不能拟合一帧,而是能不能稳定、长期地维持一致的物理状态。

从学生项目到长期路线:世界模型真正难在哪

在结尾,Ifu 点出了这条路线接下来必须面对的挑战:泛化。

加入内部障碍物,模型是否真的“懂得”遇到墙就该反弹?改变环境形状,它能否迁移已有经验?引入摩擦后,它会不会自然学到“慢下来”这件事?

更细节的问题也很关键,比如帧率选择。帧率过低,碰撞会变成“瞬移”;帧率过高,训练成本急剧上升。这些看似工程的问题,本质上都在拷问同一件事:模型到底是在记忆像素,还是在形成可组合的世界规则?

这也是为什么,即便这个项目规模不大,它依然代表了一条极其重要的研究方向——为未来真正能规划、能推理的智能体打地基。

总结

Physics Net 并不是一个“效果炸裂”的项目,但它提供了一个极其清醒的视角:如果我们想要更强的智能体,光靠堆数据、堆参数是不够的,理解世界的结构本身,才是关键瓶颈

对从业者来说,这个项目的启发在于两点:第一,世界模型值得长期投入,即便短期效果并不华丽;第二,少样本、无显式监督的学习方式,可能比我们想象中更接近智能的本质。

一个值得你继续思考的问题是:当模型真的“懂”了物理,它还需要我们定义 reward 吗?还是说,理解世界本身,就已经是一种最强的先验?


关键词: 世界模型, 少样本学习, 物理直觉, 卷积自编码器, 模型训练

事实核查备注: 需要核查:Ifu Aniemeka 的姓名拼写;项目名称 Physics Net 是否为正式命名;使用的 JavaScript 物理引擎名称(原视频口音不清);训练 epoch 数为大致描述还是精确数值;视频发布时间为 2020-07-02