谷歌被“反政治正确”逼停生图:真正失控的不是文化战争

AI PM 编辑部 · 2024年02月23日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

Gemini 因“拒绝生成白人形象”被迫下线生图功能,推特吵成战场。但这不是一次简单的政治正确翻车,而是一次把 AI、历史叙事权、模型控制力同时推到台前的事故。更微妙的是:就在谷歌技术里程碑频出的同一周。

谷歌被“反政治正确”逼停生图:真正失控的不是文化战争

Gemini 因“拒绝生成白人形象”被迫下线生图功能,推特吵成战场。但这不是一次简单的政治正确翻车,而是一次把 AI、历史叙事权、模型控制力同时推到台前的事故。更微妙的是:就在谷歌技术里程碑频出的同一周。

一条推特,把谷歌最危险的雷引爆了

事情的导火索并不复杂:用户发现,Gemini 的图像生成在“多样性”这件事上用力过猛。让它画美国内战士兵,出来的是非裔士兵;让它画纳粹,出来的是亚洲女性;而当你直接输入“生成一个白人男性”,模型会一本正经地拒绝你——理由是“我不能生成特定族裔的形象,因为我要保持包容性”。

真正让事件升级的,是 Stratechery 的 Ben Thompson 亲自下场转发谷歌官方回应,并贴出对比测试:生成“黑人男性”毫无问题,但“白人男性”不行。这一刻,讨论从“是不是太 woke 了”,迅速升级成一个更刺痛的问题:当 AI 开始替你决定什么样的历史和现实是“可以被呈现的”,谁在背后写规则?

谷歌很快认怂——不是口头道歉,而是直接暂停 Gemini 的人物图像生成,承认“没对齐好”,等改完再上线。对一家以工程理性著称的公司来说,这是一个极不寻常、也极不体面的动作。

讽刺的是:这是谷歌技术最好的一周

如果只看技术新闻,这一周本该属于谷歌的高光时刻。

Gemini 1.5 宣布支持百万 token 上下文窗口;谷歌第一次发布真正意义上的开源模型 Gemma(2B / 7B);而路透社还爆出,Reddit 那笔 6000 万美元的内容授权交易,合作方正是谷歌——为训练下一代模型铺路。

但所有这些里程碑,在舆论场里几乎被一键抹掉。大家不再讨论“百万 token 能干什么”,而是在吵“AI 到底能不能画白人”。这对谷歌来说极其挫败,却也极其真实:在生成式 AI 时代,能力提升不再自动等于正面叙事,一次对齐失误,就足以覆盖十次技术突破。

这也是一个残酷的新规律:模型不是发布在论文里,而是直接投放到文化冲突最密集的公共空间。你没法只当工程师。

从 Gemini 到 ChatGPT:失控不一定是“觉醒”,也可能只是 bug

有意思的是,就在谷歌被质疑“价值观写进模型”的同时,OpenAI 这边也刚经历了一次看似“AI 觉醒”的乌龙。

ChatGPT 前几天突然输出大量乱码,有人甚至开始半开玩笑地说“AGI 在胡言乱语”。但 OpenAI 很快发布事后分析:不是意识觉醒,而是一个 GPU 配置相关的 bug,导致 token 采样阶段选错了“数字”,语言自然就崩了。

这两件事放在一起看,信息量很大:
- 一种失控来自人为设计的价值约束,且是有方向性的;
- 另一种失控来自系统复杂度,是工程事故。

但对外界来说,区别并没有那么重要。用户只看到一个事实:这些模型正在成为“基础设施级工具”,可它们的行为,依然可能在一夜之间发生巨大偏移。这种不确定性,才是真正让人不安的地方。

当“会推理”的模型出现,对齐不再是选修课

这也是为什么,视频后半段关于 OpenAI 内部“Q* / QAR”以及 Magic 的爆料,值得和 Gemini 事件一起看。

根据 The Information 的报道,OpenAI 内部已经出现能解决“没见过的问题”的推理模型原型,这正是 Sam Altman 所说的“推开无知之幕”的技术背景。而 Magic 拿到 Nat Friedman 和 Daniel Gross 的 1 亿美元投资,除了 350 万词级别的上下文窗口,更关键的卖点,也是“主动推理能力”。

一旦模型不只是复读训练数据,而是开始做逻辑外推,那么问题就变了:
- 你让它对齐的,到底是哪些价值?
- 这些价值,在推理过程中会不会被进一步放大?

或许正因如此,谷歌 DeepMind 在这个节点宣布成立新的 AI Safety & Alignment 团队,时间点耐人寻味。这不是 PR,而是工程现实逼出来的组织调整。

总结

Gemini 生图下线表面上是一场“反政治正确”的舆论风暴,实际上却暴露了一个更深层的行业事实:当 AI 开始参与叙事、历史与判断,对齐本身就成了一种权力设计。对从业者来说,这意味着两件事:第一,不要再把“价值问题”当成发布后的公关议题,它已经直接影响产品存亡;第二,推理能力越强的模型,越需要在早期就参与对齐设计。未来真正拉开差距的,不只是 token 数量,而是谁能在能力和边界之间,走得更稳。


关键词: Gemini, 文本生成图像, AI对齐, 上下文窗口, AI推理

事实核查备注: 需核查:1)Gemini 暂停人物图像生成的官方声明原文与时间(2024-02-23);2)Ben Thompson 在 Twitter 上的具体测试 prompt;3)Gemini 1.5 百万 token 上下文窗口发布信息;4)Reuters 关于 Reddit 与 Google 内容授权及 IPO 时间的报道;5)The Information 对 QAR 与 Magic 技术能力的描述。