Figure弃用OpenAI、字节视频模型突围：通用大模型的拐点已到？

AI PM 编辑部 · 2025年02月26日 · 9 阅读 · AI/人工智能

Sundar Pichai AI应用计算机视觉模型部署语音AI 开源模型神经网络多模态生成式AI AI推理

正在加载视频...

视频章节

这期《The AI Daily Brief》串起了三个看似分散却高度相关的事件：Figure机器人与OpenAI分手、字节跳动发布面向“人类动画”的视频模型Omnium 1，以及DeepSeek阴影下的Google财报与巨额资本开支。它们共同指向一个信号：通用大模型不再是唯一答案，垂直整合、专用模型和成本塌陷正在重塑AI产业。

Figure弃用OpenAI、字节视频模型突围：通用大模型的拐点已到？

这期《The AI Daily Brief》串起了三个看似分散却高度相关的事件：Figure机器人与OpenAI分手、字节跳动发布面向“人类动画”的视频模型Omnium 1，以及DeepSeek阴影下的Google财报与巨额资本开支。它们共同指向一个信号：通用大模型不再是唯一答案，垂直整合、专用模型和成本塌陷正在重塑AI产业。

为什么Figure要“甩开”OpenAI：通用模型不适合机器人？

这条新闻的重要性不在于一次合作的结束，而在于它揭示了“通用大模型”在真实世界中的边界。Figure AI创始人Brett Adcock公开宣布，公司决定终止与OpenAI的合作，转而使用完全自研的端到端机器人AI模型。要知道，OpenAI不仅是Figure的长期投资方，双方在2024年8月还高调宣布Figure 02人形机器人将使用OpenAI模型进行语言处理。

转折点来自一个极其工程化的结论：通用模型不适合跑在机器人身上。Adcock在接受TechCrunch采访时说得非常直白：“要在现实世界中大规模解决具身智能（embodied AI），你必须垂直整合机器人AI。我们不能外包AI，就像我们不能外包硬件一样。”这里的关键信息是“垂直整合”——从模型、算力到硬件功耗全面协同，而不是把云端的通用模型直接搬到机器人里。

Figure内部的“重大突破”正是一个完全端到端的神经网络系统，针对特定硬件和功耗约束做了深度优化。Adcock甚至预告：“我们将在30天内展示一些前所未见的人形机器人能力。”这种自信并非空穴来风，而是建立在他们已开始用神经网络直接学习真实工厂任务的基础上。

工厂里的真实故事：宝马、第二个大客户与“纯魔法”时刻

如果没有真实落地案例，这场“分手”很难服众。Figure的底气来自工厂。2024年1月，公司宣布宝马已在其南卡罗来纳州工厂部署Figure机器人，尽管具体规模未披露，但这已经是少数进入真实生产线的人形机器人案例之一。

更关键的是另一个细节：Adcock透露，公司刚刚签下第二个“美国最大公司之一”的客户。虽然名字未公开，但他给出了一个极具冲击力的数字——结合宝马和这家新客户，Figure有机会在未来四年内交付10万台机器人。

在技术层面，他描述了一次让团队震撼的经历：“我们成功在新客户的使用场景中运行了一个端到端神经网络。用AI去学习使用场景是唯一的路径，因为靠规则和启发式方法根本不可能。每次我看到这些策略跑起来，都感觉像‘纯魔法’。”这句话点出了机器人领域的核心难题：现实世界的复杂度远超人工规则能覆盖的范围。

这也解释了为什么Figure认为，继续依赖通用语言模型只会拖慢进度。

开源与成本塌陷：DeepSeek为何成了“幕后推手”

在这条新闻的评论区，一个名字反复被提及：DeepSeek。多位观察者认为，Figure的决定并非孤例，而是开源模型成熟后的必然结果。Marc Andreessen曾预言，真正的AI数据飞轮需要模型、数据和产品的闭环，而Bas Bezos（视频中引用的观点）更是直言：“所有机器人公司最终都必须成为基础模型公司。”

评论者10xMaron Conor指出：“回头看，这几乎是Open Source R1出现后的必然结果。”另一位Jonathan Meara则补充说，DeepSeek作为一个开源推理模型，可以在本地PC上、无需联网运行，这对机器人这种对延迟和稳定性极端敏感的场景至关重要。

当推理能力可以本地化、成本大幅下降时，继续使用昂贵的API就变得难以自圆其说。Figure的选择，某种程度上是对“OpenAI太贵了”这一现实的工程化回应。

字节与Google的另一条战线：专用模型正在全面反攻

视频的后半段把视角拉向更广阔的AI战场。字节跳动发布了生成式视频模型Omnium 1，专门针对“从图片到视频的人类动画”这一细分场景。与通用视频模型不同，Omnium 1可以同时驱动面部和身体动作，并实现口型、手势与语音或音乐的同步。

字节研究者在论文中直言不讳：通用视频模型很难在真实应用中扩展，而当OpenAI发布Sora时，很多人对其图像到视频功能“极其失望”。Omnium 1训练使用了18，700小时的人类视频数据，并通过文本、音频和身体动作的联合训练减少数据浪费。这是又一个“专用模型胜过通用模型”的例子。

同一时间，DeepSeek的压力也出现在Google财报电话会上。Google Q4营收965亿美元，同比增长12%，却是全年最低增速，股价盘后下跌7%。CEO Sundar Pichai一方面肯定DeepSeek团队“做得非常好”，另一方面强调Gemini Flash在效率上可与DeepSeek V3和R1对比。他同时指出，模型服务价格的崩塌“对所有人都是好事”，因为这会解锁更多应用场景。

讽刺的是，为了迎接这种“价格塌陷”，Google计划在2025年投入750亿美元资本开支，比2024年高出近50%。一边是成本下降，一边是资本军备竞赛，这正是AI产业最矛盾也最真实的现状。

总结

从Figure放弃OpenAI，到字节跳动和Google在不同战线上的选择，这期视频传递了一个清晰信号：AI正在从“谁的模型更通用”转向“谁能把模型真正跑进现实”。机器人需要端到端、低功耗、强耦合的专用模型；视频、推理、企业应用也在走向细分与垂直。对从业者和投资者而言，下一阶段的核心不再是追逐最大参数，而是判断哪些场景值得“自己造轮子”，并为此承担长期整合的成本。

关键词： Figure AI， OpenAI， DeepSeek，专用模型，具身智能

事实核查备注： Figure AI创始人：Brett Adcock；合作方：OpenAI；Figure 02机器人于2024年8月宣布使用OpenAI模型；宝马在南卡罗来纳州工厂部署Figure机器人（2024年1月公布）；潜在交付规模：4年10万台机器人；字节跳动模型：Omnium 1，训练数据18，700小时人类视频；Google Q4营收965亿美元，资本开支计划750亿美元；涉及模型：DeepSeek V3、R1，Gemini Flash，Sora。

返回文章列表