Dan Hendrycks谈AI安全:真正的风险不只在模型里
正在加载视频...
视频章节
在这期 No Priors 播客中,AI Safety Center 主任 Dan Hendrycks 解释了他为何早早投身 AI 安全研究,并提出一个反直觉观点:实验室里的“对齐”和“安全”远不足以决定 AI 的结局,真正的风险更多来自地缘政治、竞争压力与结构性博弈。
Dan Hendrycks谈AI安全:真正的风险不只在模型里
在这期 No Priors 播客中,AI Safety Center 主任 Dan Hendrycks 解释了他为何早早投身 AI 安全研究,并提出一个反直觉观点:实验室里的“对齐”和“安全”远不足以决定 AI 的结局,真正的风险更多来自地缘政治、竞争压力与结构性博弈。
为什么他早早选择了一条“不讨喜”的道路
理解 Dan Hendrycks 的观点,首先要理解他的动机。与许多从工程或创业机会切入 AI 的人不同,他进入 AI 安全领域的原因非常直接:他认为 AI 是“本世纪最重要的事情”。在播客一开始,他回忆自己早期做这个选择时的处境——AI 的长期风险“怪异、不好想、也不那么令人愉快”,因此被大多数人忽略。
他说得很直白:“AI 显然会是一个大事,只要你把它一路想下去。”正是这种“一路想下去”的习惯,让他注意到尾部风险(tail risks)——那些低概率但高后果的系统性风险,往往被现实世界忽视。他判断,如果这是一个会在几十年尺度上深刻影响人类命运的技术,那么提前投入研究,哪怕方向冷门,也是一种理性的职业选择。
这种判断后来塑造了他在学术与公共领域的角色:他不仅发表研究论文,还主导了被广泛使用的评测(evals),并推动“Humanity’s Last Exam”等极限能力评估。他的路径本身就是一个故事:不是追逐短期成果,而是围绕一个被低估的问题,长期下注。
为什么他不指望大模型实验室“拯救世界”
一个颇具争议、但极具洞见的观点是:Hendrycks 并不认为大型 AI 实验室在“让 AI 走向安全”这件事上能起决定性作用。他并不是否认实验室的努力,而是指出其结构性局限。
在他看来,实验室能做的事情主要停留在“基础层面”,比如拒绝明显危险的请求——“帮我制造病毒”这类问题。他直言:“我不认为实验室在整体安全上能扮演一个极其重要的角色。”原因并不复杂:在全球竞争格局下,领先实验室被迫参与竞赛,几乎没有选择“慢下来”的空间,否则就可能失去相关性。
更重要的是,许多关键风险并不由单个公司的设计选择决定。无论你如何微调模型、增加拒答数据,AI 对劳动力市场的冲击、对经济结构的重塑,都会发生。Hendrycks 的结论是,AI 风险管理本质上是一个“更宏观的问题”:技术只是其中一小部分,其余来自经济、政治和国家竞争。
对齐只是安全的子集,而不是终点
在 AI 讨论中,“对齐”(alignment)常被视为核心目标,但 Hendrycks 明确区分了“对齐”和“安全”。他的定义非常清晰:对齐是安全的一个子集,而不是等价概念。
他举了一个极具冲击力的例子:假设美国拥有完全与美国价值观对齐的 AI,中国也拥有完全与中国目标对齐的 AI——这并不会让世界变得安全。相反,战略竞争依然存在,而且由于 AI 的重要性,两国都会被迫快速将其整合进军事与国家体系中。“竞争会迫使系统在高风险容忍度下运行,”他说。
这段话揭示了一个常被忽视的事实:即使 AI“非常听话”,结构性压力依然可能把世界推向危险边缘。安全不仅关乎模型是否可靠,还关乎权力集中、军备竞赛和地缘政治博弈。把安全问题简化为“模型是否按我们说的做”,本身就是一种误判。
国家安全、网络与生物:短期不爆炸,但正在逼近拐点
在国家安全层面,Hendrycks 的态度同样克制而具体。他认为,就“当下”而言,AI 还没有强到足以彻底改变国家安全格局。例如,在网络攻击方面,他并不认为现阶段的 AI 就能让恶意行为者轻易发动毁灭性电网攻击。
但这种判断紧跟着一个重要转折:“这可能在一年内改变。”他特别点出生物领域。随着推理模型的发展,AI 已经在许多 STEM 博士级主题上表现出专家水准,其中就包括病毒学相关知识。这意味着,AI 正“拐过一个弯”,开始具备国家安全层面的实际影响。
更长期来看,他认为 AI 可能成为国家竞争的经济与军事“底座”,类似于工业能力或能源体系。正如他所说,这种判断并非空想,而是像 NVIDIA 估值或 AI 公司估值一样的“前瞻性预期”——并非确定,但被大量参与者认真对待。
总结
这期播客的价值,不在于给出简单的解决方案,而在于重新定义问题。Dan Hendrycks 一再强调:如果我们只盯着模型对齐和实验室规范,就会错过更大的结构性风险。真正决定 AI 走向的,是竞争、国家博弈与社会承载能力。对读者而言,最大的启发或许是——AI 安全不是一个“技术部门”能独立完成的任务,而是一场跨越技术、政治与经济的长期博弈。
关键词: AI安全, AI对齐, 地缘政治, 通用人工智能, AI评测
事实核查备注: Dan Hendrycks:AI 研究者,Center for AI Safety 主任;节目:No Priors Ep.105;提及评测:Humanity’s Last Exam;提及人物:Alexandr Wang、Eric Schmidt;提及公司:Google、Scale AI、NVIDIA;核心概念:AI safety、alignment、geopolitics、tail risks