OpenAI给自己装上“刹车系统”：一次被董事会逼出来的安全重构

AI PM 编辑部 · 2023年12月20日 · 3 阅读 · AI/人工智能

Ilya Sutskever Sam Altman 人类反馈强化学习 AI对齐 AI安全通用人工智能 AI伦理模型部署模型训练 OpenAI

正在加载视频...

视频章节

Sam Altman 刚经历“被罢免又回归”的董事会风波，OpenAI 就抛出了一套前所未有的安全准备框架。更激进的是：一旦模型风险降不下来，哪怕算力已经砸下去，也可能直接停掉。这不是公关，而是一套会真正影响模型生死的内部机制。

OpenAI给自己装上“刹车系统”：一次被董事会逼出来的安全重构

Sam Altman 刚经历“被罢免又回归”的董事会风波，OpenAI 就抛出了一套前所未有的安全准备框架。更激进的是：一旦模型风险降不下来，哪怕算力已经砸下去，也可能直接停掉。这不是公关，而是一套会真正影响模型生死的内部机制。

董事会风波之后，OpenAI第一次把“安全权力结构”摊开讲

这套 Preparedness Framework 出现的时间点，本身就很耐人寻味。就在 Sam Altman 被董事会短暂解职、又迅速回归的几周后，OpenAI 发布了这份迄今为止最系统的安全与准备政策。

一个关键变化是：OpenAI 不再把“安全”只放在一个 Trust & Safety 团队里。过去，这个角色由前 Meta 内容治理高管 Dave Willner 负责，但近几个月 OpenAI 明显在“重构玩法”。现在，安全被拆成三条并行战线：

Safety Systems：盯着已经上线或即将部署的模型；
Preparedness：专门评估 Frontier Models（前沿模型）的能力边界与灾难性风险；
Superalignment：押注未来，研究如何对齐“超级智能”。

这不是组织架构的小修小补，而是在回答一个董事会级别的问题：当模型变得越来越强，谁有权说“不能发”？

三支队伍，各盯一种“翻车方式”

OpenAI 对安全的拆分，其实暴露了他们内部对风险来源的判断。

Safety Systems 团队，离产品最近，思考的是极其现实的问题：如何发现“我们还不知道的有害用法”？如何在不侵犯隐私的前提下做安全？如何让模型在代表用户行动时不越界？

这个团队下面又细分为四个子方向：
- Safety Engineering：把“系统级缓解措施”真正写进产品；
- Model Safety Research：传统意义上的模型对齐；
- Safety Reasoning Research：试图让模型学会更好的安全与伦理推理；
- Human-AI Interaction：研究人和模型交互时的安全边界。

其中 Safety Reasoning 的思路，明显呼应了 Anthropic 的 Constitutional AI——与其无限 scale RLHF，不如教模型“为什么这样做不对”。

而 Superalignment 团队，曾由 Ilya Sutskever 共同领导，专注的是一个更遥远、也更棘手的问题：当模型能力远超人类，我们还能不能控制它？值得注意的是，在董事会风波之后，Ilya 在 OpenAI 的未来角色仍然充满不确定性。

真正的狠招：四类风险，一票否决模型命运

Preparedness Framework 最硬核的部分，是它如何给模型“打分”。

OpenAI 把前沿模型的风险分成四类：
- 网络安全（Cybersecurity）
- CBRN（化学、生物、放射性、核）
- 说服与操纵（Persuasion）
- 模型自主性（Model Autonomy）

每一类风险都会被评为 low、medium、high 或 critical，而总体风险等级，取其中最高的一项。这意味着：哪怕其他三项都很低，只要 CBRN 是 critical，整个模型就是 critical。

更关键的是他们对“红线”的承诺：
- 只有 post-mitigation 风险 ≤ medium 的模型，才能被部署；
- 只有 post-mitigation 风险 ≤ high 的模型，才能继续研发；
- 如果某个 critical 风险无论如何都降不下来，OpenAI 明确表示：会停止这个模型的工作。

这句话的潜台词是：算力、进度、竞争压力，都不能自动压过安全评分。至少在制度上不能。

谁来拍板？这次不只是管理层说了算

在“谁决定模型生死”这个问题上，OpenAI 这次给了一个比以往更清晰的答案。

Preparedness 团队负责跑评估、压模型到极限、产出风险报告；但这些报告不会只流向管理层，而是同步送达一个跨职能的 Safety Advisory Group，以及董事会。

此外，他们还引入了几个以前很少被公开提到的机制：
- 定期安全演练，专门用来对抗“商业压力 + 公司文化”的双重挤压；
- 紧急标记机制，应对快速出现的安全问题；
- 与外部机构合作，追踪真实世界的滥用；
- 持续寻找“unknown unknowns”，而不仅是已知风险。

这套设计，明显是吸取了此前治理危机的教训：安全不能只是一条内部建议，而必须有组织结构上的制衡。

总结

这套 Preparedness Framework 并不完美——具体的风险阈值仍然是黑箱，外界也无法验证它在关键时刻是否真能挡住商业冲动。但它至少把一件事说清楚了：在 OpenAI 内部，安全第一次被制度化为“能否继续做模型”的前置条件。

对 AI 从业者来说，这意味着两个现实变化。第一，未来的前沿模型竞争，不只是算力和数据的竞赛，还会是安全评估能力的竞赛。第二，如果你在做模型、产品或平台，迟早也会被迫回答同样的问题：当风险降不下来时，你有没有机制，真的敢停？

OpenAI 给出的不是答案，而是一张正在被验证的草图。接下来几个月，这张草图会不会在现实压力下变形，值得持续盯住。

关键词： OpenAI， AI安全， Preparedness Framework，模型部署， AI对齐

事实核查备注： 1. Preparedness Framework 发布时间：2023-12-20；2. Safety Systems、Preparedness、Superalignment 三团队划分；3. 四类风险分类：Cybersecurity、CBRN、Persuasion、Model Autonomy；4. 模型部署与继续研发的 post-mitigation 风险阈值表述；5. Ilya Sutskever 在董事会风波后的角色不确定性。

返回文章列表