OpenAI给自己装上“刹车系统”:一次被董事会逼出来的安全重构

AI PM 编辑部 · 2023年12月20日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

Sam Altman 刚经历“被罢免又回归”的董事会风波,OpenAI 就抛出了一套前所未有的安全准备框架。更激进的是:一旦模型风险降不下来,哪怕算力已经砸下去,也可能直接停掉。这不是公关,而是一套会真正影响模型生死的内部机制。

OpenAI给自己装上“刹车系统”:一次被董事会逼出来的安全重构

Sam Altman 刚经历“被罢免又回归”的董事会风波,OpenAI 就抛出了一套前所未有的安全准备框架。更激进的是:一旦模型风险降不下来,哪怕算力已经砸下去,也可能直接停掉。这不是公关,而是一套会真正影响模型生死的内部机制。

董事会风波之后,OpenAI第一次把“安全权力结构”摊开讲

这套 Preparedness Framework 出现的时间点,本身就很耐人寻味。就在 Sam Altman 被董事会短暂解职、又迅速回归的几周后,OpenAI 发布了这份迄今为止最系统的安全与准备政策。

一个关键变化是:OpenAI 不再把“安全”只放在一个 Trust & Safety 团队里。过去,这个角色由前 Meta 内容治理高管 Dave Willner 负责,但近几个月 OpenAI 明显在“重构玩法”。现在,安全被拆成三条并行战线:

  • Safety Systems:盯着已经上线或即将部署的模型;
  • Preparedness:专门评估 Frontier Models(前沿模型)的能力边界与灾难性风险;
  • Superalignment:押注未来,研究如何对齐“超级智能”。

这不是组织架构的小修小补,而是在回答一个董事会级别的问题:当模型变得越来越强,谁有权说“不能发”?

三支队伍,各盯一种“翻车方式”

OpenAI 对安全的拆分,其实暴露了他们内部对风险来源的判断。

Safety Systems 团队,离产品最近,思考的是极其现实的问题:如何发现“我们还不知道的有害用法”?如何在不侵犯隐私的前提下做安全?如何让模型在代表用户行动时不越界?

这个团队下面又细分为四个子方向:
- Safety Engineering:把“系统级缓解措施”真正写进产品;
- Model Safety Research:传统意义上的模型对齐;
- Safety Reasoning Research:试图让模型学会更好的安全与伦理推理;
- Human-AI Interaction:研究人和模型交互时的安全边界。

其中 Safety Reasoning 的思路,明显呼应了 Anthropic 的 Constitutional AI——与其无限 scale RLHF,不如教模型“为什么这样做不对”。

Superalignment 团队,曾由 Ilya Sutskever 共同领导,专注的是一个更遥远、也更棘手的问题:当模型能力远超人类,我们还能不能控制它?值得注意的是,在董事会风波之后,Ilya 在 OpenAI 的未来角色仍然充满不确定性。

真正的狠招:四类风险,一票否决模型命运

Preparedness Framework 最硬核的部分,是它如何给模型“打分”。

OpenAI 把前沿模型的风险分成四类:
- 网络安全(Cybersecurity)
- CBRN(化学、生物、放射性、核)
- 说服与操纵(Persuasion)
- 模型自主性(Model Autonomy)

每一类风险都会被评为 low、medium、high 或 critical,而总体风险等级,取其中最高的一项。这意味着:哪怕其他三项都很低,只要 CBRN 是 critical,整个模型就是 critical。

更关键的是他们对“红线”的承诺:
- 只有 post-mitigation 风险 ≤ medium 的模型,才能被部署
- 只有 post-mitigation 风险 ≤ high 的模型,才能继续研发
- 如果某个 critical 风险无论如何都降不下来,OpenAI 明确表示:会停止这个模型的工作。

这句话的潜台词是:算力、进度、竞争压力,都不能自动压过安全评分。至少在制度上不能。

谁来拍板?这次不只是管理层说了算

在“谁决定模型生死”这个问题上,OpenAI 这次给了一个比以往更清晰的答案。

Preparedness 团队负责跑评估、压模型到极限、产出风险报告;但这些报告不会只流向管理层,而是同步送达一个跨职能的 Safety Advisory Group,以及董事会

此外,他们还引入了几个以前很少被公开提到的机制:
- 定期安全演练,专门用来对抗“商业压力 + 公司文化”的双重挤压;
- 紧急标记机制,应对快速出现的安全问题;
- 与外部机构合作,追踪真实世界的滥用;
- 持续寻找“unknown unknowns”,而不仅是已知风险。

这套设计,明显是吸取了此前治理危机的教训:安全不能只是一条内部建议,而必须有组织结构上的制衡。

总结

这套 Preparedness Framework 并不完美——具体的风险阈值仍然是黑箱,外界也无法验证它在关键时刻是否真能挡住商业冲动。但它至少把一件事说清楚了:在 OpenAI 内部,安全第一次被制度化为“能否继续做模型”的前置条件。

对 AI 从业者来说,这意味着两个现实变化。第一,未来的前沿模型竞争,不只是算力和数据的竞赛,还会是安全评估能力的竞赛。第二,如果你在做模型、产品或平台,迟早也会被迫回答同样的问题:当风险降不下来时,你有没有机制,真的敢停?

OpenAI 给出的不是答案,而是一张正在被验证的草图。接下来几个月,这张草图会不会在现实压力下变形,值得持续盯住。


关键词: OpenAI, AI安全, Preparedness Framework, 模型部署, AI对齐

事实核查备注: 1. Preparedness Framework 发布时间:2023-12-20;2. Safety Systems、Preparedness、Superalignment 三团队划分;3. 四类风险分类:Cybersecurity、CBRN、Persuasion、Model Autonomy;4. 模型部署与继续研发的 post-mitigation 风险阈值表述;5. Ilya Sutskever 在董事会风波后的角色不确定性。