从幻觉到信任：Anthropic如何把AI安全放在产品正中央

AI PM 编辑部 · 2024年03月26日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

在这场与Sequoia的对谈中，Anthropic联合创始人Daniela Amodei系统阐述了他们如何看待生成式AI的可靠性、可控性与安全性，并分享了Claude在真实业务场景中的应用经验。这不仅是一场产品讨论，更是一套关于“如何负责任地推进AI能力”的方法论。

从幻觉到信任：Anthropic如何把AI安全放在产品正中央

在这场与Sequoia的对谈中，Anthropic联合创始人Daniela Amodei系统阐述了他们如何看待生成式AI的可靠性、可控性与安全性，并分享了Claude在真实业务场景中的应用经验。这不仅是一场产品讨论，更是一套关于“如何负责任地推进AI能力”的方法论。

为什么“可信任的AI”是生成式浪潮的真正分水岭

这一部分之所以重要，是因为它解释了Anthropic切入生成式AI竞争的根本动机。在Daniela Amodei看来，模型能力的快速提升固然令人兴奋，但如果用户无法信任模型输出，能力本身就会失去商业与社会价值。她提到，团队在一开始就意识到，生成式模型最危险的不是“不聪明”，而是“看起来很聪明却在胡说”。

在对话中，她直言行业对“幻觉”（hallucination）的担忧并非杞人忧天：模型可能自信地给出错误信息，甚至说出“非常冒犯”的内容。这也是Anthropic在模型训练和产品设计时反复强调可靠性和安全边界的原因。她用一种近乎克制的语气强调，推进技术前沿与建立信任并不是对立选项，而是同一件事的两面。

Daniela的一句原话点出了核心矛盾：“如果模型不能被信任，那它越强大，风险反而越大。”这并非营销口号，而是决定了Anthropic在资源分配、发布节奏和产品能力取舍上的一整套逻辑。

从“会说话的机器人”到真正有用的助手

这一节聚焦在Claude产品理念的转变，为什么这很重要？因为它揭示了Anthropic如何区分“演示型AI”和“生产级AI”。Daniela在谈到Claude 3时，特别提到一个对比：与其追求让模型“听起来像人”，不如让它在实际任务中持续可靠。

她形容，早期很多模型更像是“被训练成像人类说话的机器人”，而不是能在复杂工作流中提供稳定价值的工具。Claude的设计目标，则是成为可以长期协作的助手，尤其是在需要精确性和上下文理解的场景中。

她分享了一个团队内部的观察：当用户开始把模型用于真实工作，而不是试探性提问时，对错误和不确定性的容忍度会急剧下降。这也反过来推动Anthropic在模型行为一致性、拒答机制以及输出风格上的持续调整。Daniela总结说：“真正的考验不是第一次让人惊艳，而是第100次还能不能让人放心。”

最先跑通的，并不是最炫的用例

谈到应用场景时，这一部分尤为关键，因为它打破了外界对生成式AI落地的某些想象。Daniela提到，她最喜欢的一些用例，并不来自最前沿或最具话题性的领域，而是法律服务、金融服务等传统行业的“面包和黄油”型工作。

这些行业的共同特点是：文本密集、规则复杂、对错误极度敏感。也正因为如此，它们反而成为检验模型可靠性的理想场所。她提到，很多成功案例并不是完全自动化，而是让AI承担初稿、整理、对照等辅助角色，由人类完成最终判断。

在这里，她分享了一个反直觉的洞见：越是高风险行业，越愿意在可控范围内尝试AI。原因很简单，这些组织本就有成熟的审核和风控流程，可以把模型能力“嵌”进既有体系，而不是颠覆一切。Daniela用一句话概括这种状态：“不是让AI做决定，而是让人类在更好的信息基础上做决定。”

透明度、红队测试与“说不”的能力

为什么要单独谈透明度？因为在Daniela看来，这是AI安全从理念走向实践的关键一环。她提到Anthropic会认真对待模型评估和红队测试（red teaming），并思考哪些结果应该向外界分享。

红队测试，简单来说，就是让内部或外部人员刻意寻找模型的失败模式和危险行为。这并不是一次性的流程，而是伴随模型迭代持续进行。Daniela强调，安全并不是靠一句“我们很重视”来实现，而是靠具体、重复、可被审视的工作。

在对谈中，她也坦诚地指出一个挑战：当AI被用于更基础、更关键的决策时，个人和组织是否真的愿意把权力交给工具？因此，Anthropic在产品层面非常重视“拒绝能力”——模型知道什么时候不该回答，或者应该提示不确定性。她说：“有时候，最负责任的回答就是不回答。”

总结

这场对谈传递出的最大信息，并不是Claude又多强，而是Anthropic如何理解“进步”的含义。在Daniela Amodei的叙述中，生成式AI的未来不取决于一次次能力跃迁，而取决于用户是否愿意在真实世界中长期使用它。对读者而言，这也是一个重要提醒：评估AI产品时，除了效果和速度，更要关注它如何处理不确定性、错误和边界。这些看似保守的设计，恰恰决定了技术能走多远。

关键词： Daniela Amodei， Claude，生成式AI， AI安全，幻觉

事实核查备注：人物：Daniela Amodei；产品：Claude、Claude 3；话题：生成式AI、幻觉（hallucination）、AI安全、红队测试（red teaming）。文中未涉及具体性能数字或未在视频中明确给出的技术细节。

返回文章列表