Dan Hendrycks谈AI安全：真正的风险不只在模型里

AI PM 编辑部 · 2025年03月05日 · 15 阅读 · AI/人工智能

Alexandr Wang AI安全 AI对齐 GPU 通用人工智能 AI推理 Google NVIDIA Scale AI

正在加载视频...

视频章节

在这期 No Priors 播客中，AI Safety Center 主任 Dan Hendrycks 解释了他为何早早投身 AI 安全研究，并提出一个反直觉观点：实验室里的“对齐”和“安全”远不足以决定 AI 的结局，真正的风险更多来自地缘政治、竞争压力与结构性博弈。

Dan Hendrycks谈AI安全：真正的风险不只在模型里

在这期 No Priors 播客中，AI Safety Center 主任 Dan Hendrycks 解释了他为何早早投身 AI 安全研究，并提出一个反直觉观点：实验室里的“对齐”和“安全”远不足以决定 AI 的结局，真正的风险更多来自地缘政治、竞争压力与结构性博弈。

为什么他早早选择了一条“不讨喜”的道路

理解 Dan Hendrycks 的观点，首先要理解他的动机。与许多从工程或创业机会切入 AI 的人不同，他进入 AI 安全领域的原因非常直接：他认为 AI 是“本世纪最重要的事情”。在播客一开始，他回忆自己早期做这个选择时的处境——AI 的长期风险“怪异、不好想、也不那么令人愉快”，因此被大多数人忽略。

他说得很直白：“AI 显然会是一个大事，只要你把它一路想下去。”正是这种“一路想下去”的习惯，让他注意到尾部风险（tail risks）——那些低概率但高后果的系统性风险，往往被现实世界忽视。他判断，如果这是一个会在几十年尺度上深刻影响人类命运的技术，那么提前投入研究，哪怕方向冷门，也是一种理性的职业选择。

这种判断后来塑造了他在学术与公共领域的角色：他不仅发表研究论文，还主导了被广泛使用的评测（evals），并推动“Humanity’s Last Exam”等极限能力评估。他的路径本身就是一个故事：不是追逐短期成果，而是围绕一个被低估的问题，长期下注。

为什么他不指望大模型实验室“拯救世界”

一个颇具争议、但极具洞见的观点是：Hendrycks 并不认为大型 AI 实验室在“让 AI 走向安全”这件事上能起决定性作用。他并不是否认实验室的努力，而是指出其结构性局限。

在他看来，实验室能做的事情主要停留在“基础层面”，比如拒绝明显危险的请求——“帮我制造病毒”这类问题。他直言：“我不认为实验室在整体安全上能扮演一个极其重要的角色。”原因并不复杂：在全球竞争格局下，领先实验室被迫参与竞赛，几乎没有选择“慢下来”的空间，否则就可能失去相关性。

更重要的是，许多关键风险并不由单个公司的设计选择决定。无论你如何微调模型、增加拒答数据，AI 对劳动力市场的冲击、对经济结构的重塑，都会发生。Hendrycks 的结论是，AI 风险管理本质上是一个“更宏观的问题”：技术只是其中一小部分，其余来自经济、政治和国家竞争。

对齐只是安全的子集，而不是终点

在 AI 讨论中，“对齐”（alignment）常被视为核心目标，但 Hendrycks 明确区分了“对齐”和“安全”。他的定义非常清晰：对齐是安全的一个子集，而不是等价概念。

他举了一个极具冲击力的例子：假设美国拥有完全与美国价值观对齐的 AI，中国也拥有完全与中国目标对齐的 AI——这并不会让世界变得安全。相反，战略竞争依然存在，而且由于 AI 的重要性，两国都会被迫快速将其整合进军事与国家体系中。“竞争会迫使系统在高风险容忍度下运行，”他说。

这段话揭示了一个常被忽视的事实：即使 AI“非常听话”，结构性压力依然可能把世界推向危险边缘。安全不仅关乎模型是否可靠，还关乎权力集中、军备竞赛和地缘政治博弈。把安全问题简化为“模型是否按我们说的做”，本身就是一种误判。

国家安全、网络与生物：短期不爆炸，但正在逼近拐点

在国家安全层面，Hendrycks 的态度同样克制而具体。他认为，就“当下”而言，AI 还没有强到足以彻底改变国家安全格局。例如，在网络攻击方面，他并不认为现阶段的 AI 就能让恶意行为者轻易发动毁灭性电网攻击。

但这种判断紧跟着一个重要转折：“这可能在一年内改变。”他特别点出生物领域。随着推理模型的发展，AI 已经在许多 STEM 博士级主题上表现出专家水准，其中就包括病毒学相关知识。这意味着，AI 正“拐过一个弯”，开始具备国家安全层面的实际影响。

更长期来看，他认为 AI 可能成为国家竞争的经济与军事“底座”，类似于工业能力或能源体系。正如他所说，这种判断并非空想，而是像 NVIDIA 估值或 AI 公司估值一样的“前瞻性预期”——并非确定，但被大量参与者认真对待。

总结

这期播客的价值，不在于给出简单的解决方案，而在于重新定义问题。Dan Hendrycks 一再强调：如果我们只盯着模型对齐和实验室规范，就会错过更大的结构性风险。真正决定 AI 走向的，是竞争、国家博弈与社会承载能力。对读者而言，最大的启发或许是——AI 安全不是一个“技术部门”能独立完成的任务，而是一场跨越技术、政治与经济的长期博弈。

关键词： AI安全， AI对齐，地缘政治，通用人工智能， AI评测

事实核查备注： Dan Hendrycks：AI 研究者，Center for AI Safety 主任；节目：No Priors Ep.105；提及评测：Humanity’s Last Exam；提及人物：Alexandr Wang、Eric Schmidt；提及公司：Google、Scale AI、NVIDIA；核心概念：AI safety、alignment、geopolitics、tail risks

返回文章列表