Figure弃用OpenAI、字节视频模型突围:通用大模型的拐点已到?

AI PM 编辑部 · 2025年02月26日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

这期《The AI Daily Brief》串起了三个看似分散却高度相关的事件:Figure机器人与OpenAI分手、字节跳动发布面向“人类动画”的视频模型Omnium 1,以及DeepSeek阴影下的Google财报与巨额资本开支。它们共同指向一个信号:通用大模型不再是唯一答案,垂直整合、专用模型和成本塌陷正在重塑AI产业。

Figure弃用OpenAI、字节视频模型突围:通用大模型的拐点已到?

这期《The AI Daily Brief》串起了三个看似分散却高度相关的事件:Figure机器人与OpenAI分手、字节跳动发布面向“人类动画”的视频模型Omnium 1,以及DeepSeek阴影下的Google财报与巨额资本开支。它们共同指向一个信号:通用大模型不再是唯一答案,垂直整合、专用模型和成本塌陷正在重塑AI产业。

为什么Figure要“甩开”OpenAI:通用模型不适合机器人?

这条新闻的重要性不在于一次合作的结束,而在于它揭示了“通用大模型”在真实世界中的边界。Figure AI创始人Brett Adcock公开宣布,公司决定终止与OpenAI的合作,转而使用完全自研的端到端机器人AI模型。要知道,OpenAI不仅是Figure的长期投资方,双方在2024年8月还高调宣布Figure 02人形机器人将使用OpenAI模型进行语言处理。

转折点来自一个极其工程化的结论:通用模型不适合跑在机器人身上。Adcock在接受TechCrunch采访时说得非常直白:“要在现实世界中大规模解决具身智能(embodied AI),你必须垂直整合机器人AI。我们不能外包AI,就像我们不能外包硬件一样。”这里的关键信息是“垂直整合”——从模型、算力到硬件功耗全面协同,而不是把云端的通用模型直接搬到机器人里。

Figure内部的“重大突破”正是一个完全端到端的神经网络系统,针对特定硬件和功耗约束做了深度优化。Adcock甚至预告:“我们将在30天内展示一些前所未见的人形机器人能力。”这种自信并非空穴来风,而是建立在他们已开始用神经网络直接学习真实工厂任务的基础上。

工厂里的真实故事:宝马、第二个大客户与“纯魔法”时刻

如果没有真实落地案例,这场“分手”很难服众。Figure的底气来自工厂。2024年1月,公司宣布宝马已在其南卡罗来纳州工厂部署Figure机器人,尽管具体规模未披露,但这已经是少数进入真实生产线的人形机器人案例之一。

更关键的是另一个细节:Adcock透露,公司刚刚签下第二个“美国最大公司之一”的客户。虽然名字未公开,但他给出了一个极具冲击力的数字——结合宝马和这家新客户,Figure有机会在未来四年内交付10万台机器人。

在技术层面,他描述了一次让团队震撼的经历:“我们成功在新客户的使用场景中运行了一个端到端神经网络。用AI去学习使用场景是唯一的路径,因为靠规则和启发式方法根本不可能。每次我看到这些策略跑起来,都感觉像‘纯魔法’。”这句话点出了机器人领域的核心难题:现实世界的复杂度远超人工规则能覆盖的范围。

这也解释了为什么Figure认为,继续依赖通用语言模型只会拖慢进度。

开源与成本塌陷:DeepSeek为何成了“幕后推手”

在这条新闻的评论区,一个名字反复被提及:DeepSeek。多位观察者认为,Figure的决定并非孤例,而是开源模型成熟后的必然结果。Marc Andreessen曾预言,真正的AI数据飞轮需要模型、数据和产品的闭环,而Bas Bezos(视频中引用的观点)更是直言:“所有机器人公司最终都必须成为基础模型公司。”

评论者10xMaron Conor指出:“回头看,这几乎是Open Source R1出现后的必然结果。”另一位Jonathan Meara则补充说,DeepSeek作为一个开源推理模型,可以在本地PC上、无需联网运行,这对机器人这种对延迟和稳定性极端敏感的场景至关重要。

当推理能力可以本地化、成本大幅下降时,继续使用昂贵的API就变得难以自圆其说。Figure的选择,某种程度上是对“OpenAI太贵了”这一现实的工程化回应。

字节与Google的另一条战线:专用模型正在全面反攻

视频的后半段把视角拉向更广阔的AI战场。字节跳动发布了生成式视频模型Omnium 1,专门针对“从图片到视频的人类动画”这一细分场景。与通用视频模型不同,Omnium 1可以同时驱动面部和身体动作,并实现口型、手势与语音或音乐的同步。

字节研究者在论文中直言不讳:通用视频模型很难在真实应用中扩展,而当OpenAI发布Sora时,很多人对其图像到视频功能“极其失望”。Omnium 1训练使用了18,700小时的人类视频数据,并通过文本、音频和身体动作的联合训练减少数据浪费。这是又一个“专用模型胜过通用模型”的例子。

同一时间,DeepSeek的压力也出现在Google财报电话会上。Google Q4营收965亿美元,同比增长12%,却是全年最低增速,股价盘后下跌7%。CEO Sundar Pichai一方面肯定DeepSeek团队“做得非常好”,另一方面强调Gemini Flash在效率上可与DeepSeek V3和R1对比。他同时指出,模型服务价格的崩塌“对所有人都是好事”,因为这会解锁更多应用场景。

讽刺的是,为了迎接这种“价格塌陷”,Google计划在2025年投入750亿美元资本开支,比2024年高出近50%。一边是成本下降,一边是资本军备竞赛,这正是AI产业最矛盾也最真实的现状。

总结

从Figure放弃OpenAI,到字节跳动和Google在不同战线上的选择,这期视频传递了一个清晰信号:AI正在从“谁的模型更通用”转向“谁能把模型真正跑进现实”。机器人需要端到端、低功耗、强耦合的专用模型;视频、推理、企业应用也在走向细分与垂直。对从业者和投资者而言,下一阶段的核心不再是追逐最大参数,而是判断哪些场景值得“自己造轮子”,并为此承担长期整合的成本。


关键词: Figure AI, OpenAI, DeepSeek, 专用模型, 具身智能

事实核查备注: Figure AI创始人:Brett Adcock;合作方:OpenAI;Figure 02机器人于2024年8月宣布使用OpenAI模型;宝马在南卡罗来纳州工厂部署Figure机器人(2024年1月公布);潜在交付规模:4年10万台机器人;字节跳动模型:Omnium 1,训练数据18,700小时人类视频;Google Q4营收965亿美元,资本开支计划750亿美元;涉及模型:DeepSeek V3、R1,Gemini Flash,Sora。