不教力学、不讲公式，他让神经网络自己“悟”出物理世界

AI PM 编辑部 · 2020年07月02日 · 8 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你不告诉模型什么是力、速度和动量，它还能理解世界吗？在 OpenAI Scholars Demo Day 上，Ifu Aniemeka 用一个看似“幼稚”的实验给出了惊人答案：只靠观察，神经网络真的能学会预测物体运动。这不是炫技，而是世界模型的一次重要试探。

如果你不告诉模型什么是力、速度和动量，它还能理解世界吗？在 OpenAI Scholars Demo Day 上，Ifu Aniemeka 用一个看似“幼稚”的实验给出了惊人答案：只靠观察，神经网络真的能学会预测物体运动。这不是炫技，而是世界模型的一次重要试探。

这次分享最炸的一点，不是网络有多深、参数有多少，而是刻意拿走了人类最引以为傲的那套物理概念。没有力、没有动量、没有角速度，甚至没有摩擦。

Ifu 的目标非常明确：像婴儿一样学习世界。人类在一岁左右就能完成一件惊人的事——预测物体的运动轨迹。你扔一个球，不需要心里默算抛物线公式；你看到球飞出去，就“知道”它会落在哪里。这种能力并不是被显式教学出来的，而是从连续观察中形成的直觉。

Physics Net 的野心就在这里：让模型通过时间序列的视觉输入，自发形成对物理世界的直觉式理解。这也是世界模型（World Model）路线最核心、也最难的一步——不是拟合数据，而是捕捉“世界是怎么运转的”。

为了避免复杂因素干扰，Ifu 选择了一个极度“干净”的模拟世界：用 JavaScript 物理引擎生成二维环境，只有彩色小球和灰色墙壁。

这里的设定很反现实：所有碰撞完全弹性，没有旋转，没有摩擦，没有空气阻力。球一旦被赋予初速度，就会永远运动下去。对人类来说，这种场景几乎是“一眼就懂”的：你能立刻预判下一帧每个球的位置。

而模型的任务非常纯粹：输入连续两帧画面，预测第三帧。没有显式状态、没有坐标监督，只有像素到像素的学习。

架构上，他使用的是卷积自编码器：把两张图像在通道维度上堆叠，编码成潜在表示，再解码成下一时刻的画面。听起来不新，但关键在于——它学到的不是一张“像”的图片，而是运动规律本身。

如果你只看最终效果，会错过这个项目最有价值的部分。

在最初的几千个 epoch，模型几乎什么都没学会：输出是一整块灰色。再往后，它开始“意识到”世界里有边界，于是生成了白色的墙，但颜色是错的，盒子里还是空的。

到了四五千个 epoch，墙的颜色对了；六千个之后，画面里开始出现模糊的色块——这是球的雏形。再往后，这些色块逐渐凝聚成稳定的圆形，位置和速度都越来越准。

这个过程本身就像一次显微镜下的认知发育：模型不是被告知“球应该是圆的”，而是在预测失败中不断修正，最终发现‘把像素聚在一起’能更好地解释世界。

当然，问题也很明显：颜色闪烁、轻微模糊、长时间预测会漂移。但这恰恰暴露了世界模型真正的难点——不是能不能拟合一帧，而是能不能稳定、长期地维持一致的物理状态。

在结尾，Ifu 点出了这条路线接下来必须面对的挑战：泛化。

加入内部障碍物，模型是否真的“懂得”遇到墙就该反弹？改变环境形状，它能否迁移已有经验？引入摩擦后，它会不会自然学到“慢下来”这件事？

更细节的问题也很关键，比如帧率选择。帧率过低，碰撞会变成“瞬移”；帧率过高，训练成本急剧上升。这些看似工程的问题，本质上都在拷问同一件事：模型到底是在记忆像素，还是在形成可组合的世界规则？

这也是为什么，即便这个项目规模不大，它依然代表了一条极其重要的研究方向——为未来真正能规划、能推理的智能体打地基。

Physics Net 并不是一个“效果炸裂”的项目，但它提供了一个极其清醒的视角：如果我们想要更强的智能体，光靠堆数据、堆参数是不够的，理解世界的结构本身，才是关键瓶颈。

对从业者来说，这个项目的启发在于两点：第一，世界模型值得长期投入，即便短期效果并不华丽；第二，少样本、无显式监督的学习方式，可能比我们想象中更接近智能的本质。

一个值得你继续思考的问题是：当模型真的“懂”了物理，它还需要我们定义 reward 吗？还是说，理解世界本身，就已经是一种最强的先验？

关键词：世界模型，少样本学习，物理直觉，卷积自编码器，模型训练

事实核查备注：需要核查：Ifu Aniemeka 的姓名拼写；项目名称 Physics Net 是否为正式命名；使用的 JavaScript 物理引擎名称（原视频口音不清）；训练 epoch 数为大致描述还是精确数值；视频发布时间为 2020-07-02