谷歌被“反政治正确”逼停生图：真正失控的不是文化战争

AI PM 编辑部 · 2024年02月23日 · 6 阅读 · AI/人工智能

Nat Friedman Ilya Sutskever Sam Altman Daniel Gross Token 多模态 AI推理上下文窗口开源模型 IPO

正在加载视频...

视频章节

Gemini 因“拒绝生成白人形象”被迫下线生图功能，推特吵成战场。但这不是一次简单的政治正确翻车，而是一次把 AI、历史叙事权、模型控制力同时推到台前的事故。更微妙的是：就在谷歌技术里程碑频出的同一周。

谷歌被“反政治正确”逼停生图：真正失控的不是文化战争

Gemini 因“拒绝生成白人形象”被迫下线生图功能，推特吵成战场。但这不是一次简单的政治正确翻车，而是一次把 AI、历史叙事权、模型控制力同时推到台前的事故。更微妙的是：就在谷歌技术里程碑频出的同一周。

一条推特，把谷歌最危险的雷引爆了

事情的导火索并不复杂：用户发现，Gemini 的图像生成在“多样性”这件事上用力过猛。让它画美国内战士兵，出来的是非裔士兵；让它画纳粹，出来的是亚洲女性；而当你直接输入“生成一个白人男性”，模型会一本正经地拒绝你——理由是“我不能生成特定族裔的形象，因为我要保持包容性”。

真正让事件升级的，是 Stratechery 的 Ben Thompson 亲自下场转发谷歌官方回应，并贴出对比测试：生成“黑人男性”毫无问题，但“白人男性”不行。这一刻，讨论从“是不是太 woke 了”，迅速升级成一个更刺痛的问题：当 AI 开始替你决定什么样的历史和现实是“可以被呈现的”，谁在背后写规则？

谷歌很快认怂——不是口头道歉，而是直接暂停 Gemini 的人物图像生成，承认“没对齐好”，等改完再上线。对一家以工程理性著称的公司来说，这是一个极不寻常、也极不体面的动作。

讽刺的是：这是谷歌技术最好的一周

如果只看技术新闻，这一周本该属于谷歌的高光时刻。

Gemini 1.5 宣布支持百万 token 上下文窗口；谷歌第一次发布真正意义上的开源模型 Gemma（2B / 7B）；而路透社还爆出，Reddit 那笔 6000 万美元的内容授权交易，合作方正是谷歌——为训练下一代模型铺路。

但所有这些里程碑，在舆论场里几乎被一键抹掉。大家不再讨论“百万 token 能干什么”，而是在吵“AI 到底能不能画白人”。这对谷歌来说极其挫败，却也极其真实：在生成式 AI 时代，能力提升不再自动等于正面叙事，一次对齐失误，就足以覆盖十次技术突破。

这也是一个残酷的新规律：模型不是发布在论文里，而是直接投放到文化冲突最密集的公共空间。你没法只当工程师。

从 Gemini 到 ChatGPT：失控不一定是“觉醒”，也可能只是 bug

有意思的是，就在谷歌被质疑“价值观写进模型”的同时，OpenAI 这边也刚经历了一次看似“AI 觉醒”的乌龙。

ChatGPT 前几天突然输出大量乱码，有人甚至开始半开玩笑地说“AGI 在胡言乱语”。但 OpenAI 很快发布事后分析：不是意识觉醒，而是一个 GPU 配置相关的 bug，导致 token 采样阶段选错了“数字”，语言自然就崩了。

这两件事放在一起看，信息量很大：
- 一种失控来自人为设计的价值约束，且是有方向性的；
- 另一种失控来自系统复杂度，是工程事故。

但对外界来说，区别并没有那么重要。用户只看到一个事实：这些模型正在成为“基础设施级工具”，可它们的行为，依然可能在一夜之间发生巨大偏移。这种不确定性，才是真正让人不安的地方。

当“会推理”的模型出现，对齐不再是选修课

这也是为什么，视频后半段关于 OpenAI 内部“Q* / QAR”以及 Magic 的爆料，值得和 Gemini 事件一起看。

根据 The Information 的报道，OpenAI 内部已经出现能解决“没见过的问题”的推理模型原型，这正是 Sam Altman 所说的“推开无知之幕”的技术背景。而 Magic 拿到 Nat Friedman 和 Daniel Gross 的 1 亿美元投资，除了 350 万词级别的上下文窗口，更关键的卖点，也是“主动推理能力”。

一旦模型不只是复读训练数据，而是开始做逻辑外推，那么问题就变了：
- 你让它对齐的，到底是哪些价值？
- 这些价值，在推理过程中会不会被进一步放大？

或许正因如此，谷歌 DeepMind 在这个节点宣布成立新的 AI Safety & Alignment 团队，时间点耐人寻味。这不是 PR，而是工程现实逼出来的组织调整。

总结

Gemini 生图下线表面上是一场“反政治正确”的舆论风暴，实际上却暴露了一个更深层的行业事实：当 AI 开始参与叙事、历史与判断，对齐本身就成了一种权力设计。对从业者来说，这意味着两件事：第一，不要再把“价值问题”当成发布后的公关议题，它已经直接影响产品存亡；第二，推理能力越强的模型，越需要在早期就参与对齐设计。未来真正拉开差距的，不只是 token 数量，而是谁能在能力和边界之间，走得更稳。

关键词： Gemini，文本生成图像， AI对齐，上下文窗口， AI推理

事实核查备注：需核查：1）Gemini 暂停人物图像生成的官方声明原文与时间（2024-02-23）；2）Ben Thompson 在 Twitter 上的具体测试 prompt；3）Gemini 1.5 百万 token 上下文窗口发布信息；4）Reuters 关于 Reddit 与 Google 内容授权及 IPO 时间的报道；5）The Information 对 QAR 与 Magic 技术能力的描述。

返回文章列表