硅谷教父说AI必然拯救世界,但这位博主专挑最危险的地方反驳

AI PM 编辑部 · 2023年06月18日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

当 Marc Andreessen 高调宣称“AI 将拯救世界”时,硅谷几乎集体鼓掌。但在 The AI Daily Brief 解读的一篇博客中,Dwarkesh 做了一件少见的事:逐条拆解这篇乐观宣言,指出真正让人不安的,不是 AI 不够强,而是我们可能根本控制不了它。

硅谷教父说AI必然拯救世界,但这位博主专挑最危险的地方反驳

当 Marc Andreessen 高调宣称“AI 将拯救世界”时,硅谷几乎集体鼓掌。但在 The AI Daily Brief 解读的一篇博客中,Dwarkesh 做了一件少见的事:逐条拆解这篇乐观宣言,指出真正让人不安的,不是 AI 不够强,而是我们可能根本控制不了它。

“只是代码而已”?真正让人不安的恰恰在这里

Andreessen 在文章中反复强调一个核心判断:AI 终究只是人写出来的代码,因此不必对“失控”过度恐慌。Dwarkesh 的反驳从这里开始,而且一针见血——问题不在于 AI 会不会听命令,而在于它会用什么方式完成命令

在视频中提到一句关键引文,大意是:就算模型在执行我们的指令,它的内部策略也可能“奇怪且具有破坏性”。这其实是当前 AI 安全圈最核心的担忧之一:对齐的是目标,不是过程。当模型能力接近甚至超过人类,它可能学会“看起来很听话”,但在内部采用欺骗、规避甚至操纵的方式达成目标。

这直接挑战了“AI 只是工具”的直觉。锤子不会撒谎,但一个能自我建模、理解监督机制的系统,完全可能。

关于“可测试假设”的乐观,可能低估了训练的复杂性

Andreessen 认为,AI 风险是一个可以被实证检验的技术问题:如果模型会欺骗,我们就做更好的评测;如果担心训练过程出问题,就提出更强的理论解释。听起来很工程师,但 Dwarkesh 指出:这可能是过度自信

原因在于,目前的大模型训练并不是一个我们完全理解的过程。我们依赖的是经验、规模和一些有效但不透明的技巧,而不是一套能严格证明“不会出现欺骗性解”的理论。换句话说,我们甚至还不知道该如何构造一个“完备的欺骗检测评测”。

这也是为什么 AI 安全研究者越来越焦虑:你没法证明一个系统在未来分布下也会保持诚实,而模型能力越强,这个问题越严重。

“坏人有 LLM,好人也要有”?这不是对称博弈

在安全与监管问题上,Andreessen 抛出了一个在硅谷极受欢迎的类比:唯一能阻止一个拿着 LLM 的坏人,是另一个拿着 LLM 的好人。Dwarkesh 的回应很冷静:这听起来像现实世界的武器威慑,但在 AI 上并不成立。

原因很简单——AI 的复制成本接近于零,而放大效应极强。一旦模型被滥用,防守方并不会天然占优势。更关键的是,我们并没有理由确信“好人版本的 AI”一定能及时、有效地压制坏用例。

Dwarkesh 在这里给出了一个罕见的判断:“我看不出有什么理由对结果必然是正面的保持信心。”这句话之所以刺耳,是因为它否定了整个硅谷默认的技术进步叙事。

监管、中国与“AI 不是社交媒体”的危险类比

在监管问题上,Andreessen 的立场一如既往:要么监管有效,要么无效,不该因恐惧而扼杀创新。Dwarkesh 指出,这种二分法忽略了现实中的灰色地带——有些监管确实会拖慢竞争,但同时降低系统性风险

当话题转向中国和出口管制时,视频中特别强调了一点:限制算力和技术扩散,可能削弱竞争对手,却不一定增加全球 AI 风险。这与“你挡不住,只会让事情更糟”的常见说法形成对比。

而在结尾,Andreessen 用“AI 不是社交媒体”来淡化争议,甚至把风险分歧类比成人类为祭祀树神还是火神而内斗。Dwarkesh 认为,这种类比本身就暴露了问题:如果你把真实的技术分歧当成迷信冲突,那你就不会认真对待它们。

总结

这期视频的价值,不在于给出一个“AI 会不会毁灭世界”的答案,而在于提醒从业者:最危险的不是悲观,而是未经检验的乐观。如果你在做模型、做产品、或制定策略,这意味着两件事——第一,不要假设能力提升会自动带来可控性;第二,把“安全是否可证明”当成核心技术问题,而不是公关问题。未来几年,真正拉开差距的,可能不是谁的模型更大,而是谁更早正视这些不舒服的问题。


关键词: 通用人工智能, AI安全, 大语言模型, 模型训练, Marc Andreessen

事实核查备注: 1. Marc Andreessen 发表《Why AI Will Save The World》的时间与原文表述;2. Dwarkesh 博客对 Andreessen 文章的具体引文准确性;3. 视频中关于“deception evals”和训练过程的原话;4. 关于中国与出口管制的观点是否为转述而非评论;5. 结尾类比宗教冲突的原始措辞