能通关多款游戏的AI出现了，但真正让行业紧张的是后面两件事

AI PM 编辑部 · 2024年03月15日 · 7 阅读 · AI/人工智能

生成式AI AI Agent 通用人工智能 Midjourney Sora OpenAI Stability AI Google Google DeepMind

正在加载视频...

视频章节

Google 的新 AI agent 已经能像人一样听指令、玩多款 3D 游戏，但这只是开胃菜。同一周里，OpenAI 因 Sora 训练数据被逼到角落，Midjourney 干脆封杀总统候选人。这三件事拼在一起，指向一个更残酷的现实：AI 正在变强，但行业的“安全边界”正在收紧。

能通关多款游戏的AI出现了，但真正让行业紧张的是后面两件事

Google 的新 AI agent 已经能像人一样听指令、玩多款 3D 游戏，但这只是开胃菜。同一周里，OpenAI 因 Sora 训练数据被逼到角落，Midjourney 干脆封杀总统候选人。这三件事拼在一起，指向一个更残酷的现实：AI 正在变强，但行业的“安全边界”正在收紧。

不是为了高分：Google 想用游戏训练“能到处跑”的 AI

如果你以为 Google DeepMind 又做了一个“打游戏很厉害的模型”，那你低估了这次的野心。

他们推出的 SEMA（Scalable Instructable Multiworld Agent），目标从一开始就不是刷榜、破纪录，而是解决一个更难的问题：让 AI 听懂自然语言，并在完全不同的 3D 世界里做出“像人一样合理”的动作。

SEMA 的训练方式很反直觉。它不依赖游戏的内部状态，不知道“这是第几关”，也不追求最高分。它只看画面、听指令，然后用鼠标和键盘操作——就像一个真正的人类玩家。训练场来自 No Man’s Sky、Valheim、Teardown 等风格差异巨大的游戏，技能跨度从“左转”“砍树”，到飞船驾驶、物品合成。

最关键的结果是：在九个游戏上联合训练的通用型 SEMA，全面碾压只在单一游戏里训练的专用 agent。更狠的是，把其中一个游戏完全拿掉，SEMA 在“没见过”的新环境里，表现几乎和专门为这个游戏训练的 agent 一样好。

这句话很值得反复读：泛化能力，正在战胜专业化。

DeepMind 自己也说得很直白：他们关心的不是游戏，而是“embodied AI”——能把抽象语言翻译成现实动作的智能体。游戏只是一个安全、可控、便宜的沙盒。今天是虚拟世界里砍树、搭积木，明天就可能是现实世界里的机器人执行指令。

Sora 看起来像电影，但 OpenAI 的回答像公关危机

如果说 SEMA 代表的是技术路线的长期胜利，那 OpenAI 的 Sora 则是短期震撼。

《华尔街日报》形容 Sora 的视频“像自然纪录片或大制作电影”，这没夸张。真正让行业炸锅的，却不是画面，而是一段采访。

当记者直接问 OpenAI CTO Mira Murati：Sora 是否使用了 YouTube、Facebook、Instagram 的视频训练？她的回答是——拒绝具体说明，只说“公开可用或已授权的数据”。

这在今天的语境下，几乎等同于什么都没说。

问题不在于公众是否“能接受”模型使用了哪些数据，而在于：OpenAI 正在多线应对版权诉讼，同时欧盟 AI Act 已经明确要求高风险系统披露训练数据来源。当 CTO 在公开采访中无法给出清晰说法，这不只是公关失误，而是潜在的合规风险。

行业内的反应很真实，也很残酷。有人直言：当一家生成式 AI 公司反复回避训练数据问题，“公众有理由默认你用了未经许可的版权内容”。

讽刺的是，大多数圈外人并不在乎这些。他们只记得一件事：Sora 太强了。这正是 OpenAI 当下的矛盾——技术突破带来的关注度，正在把它推向监管与法律的聚光灯中央。

Midjourney 的选择：不站队，只封口

第三件事，看起来更“小”，但信号极其明确。

Midjourney 宣布：开始屏蔽生成美国总统候选人拜登和特朗普的图像。哪怕换成“第45任总统和第46任总统牵手”，系统也直接报错。

CEO David Holtz 的解释几乎没有任何意识形态包装：“我不关心政治表达，那不是 Midjourney 的目的。我也不想把时间都花在审核政治内容上。”

翻译成人话就是：太麻烦了，不值得。

这不是价值观声明，而是产品策略。随着美国大选临近，政治相关生成内容的风险、争议、审核成本都会指数级上升。对 Midjourney 这种资源有限、以创作工具为核心的公司来说，最理性的选择不是“更聪明地管理”，而是“干脆不碰”。

可以预见，这不会是最后一家“踩刹车”的公司。越接近选举，越多生成式 AI 产品会在政治内容上收紧边界，甚至一刀切。

总结

把这三件事放在一起看，会发现一个清晰的趋势：能力在狂飙，边界在收紧。

一边是 DeepMind 用游戏训练能跨世界泛化的 agent，指向更通用、更接近现实的 AI；另一边是 OpenAI、Midjourney 在真实世界的法律、政治压力下，被迫不断画线、退让。

对 AI 从业者来说，takeaway 很现实：未来的竞争不只是谁模型更强，而是谁既能做出强能力，又能在数据、合规、风险控制上活下来。如果你在做产品，现在就该问自己三个问题：你的模型泛化能力够不够？你的数据来源经得起追问吗？哪些场景一旦放大，会变成你承担不起的风险？

技术红利期还在，但“只管冲、不管后果”的窗口，正在快速关闭。

关键词： AI Agent， SEMA， Sora，通用人工智能， AI 合规

事实核查备注：需要核查的关键事实：SEMA 发布时间与官方描述；SEMA 训练的具体游戏数量（九个）；Mira Murati 在 WSJ 采访中的原话表述；欧盟 AI Act 对高风险系统透明度的具体要求；Midjourney 屏蔽拜登与特朗普图像的官方说明时间。

返回文章列表