他们用 AI 调试 AI,一年后发现比写模型本身还重要的东西

AI PM 编辑部 · 2026年05月17日 · 37 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人都在讨论如何“把 AI 做得更聪明”时,incident.io 的创始工程师却踩中了一个更残酷的现实:真正让 AI 产品崩溃的,从来不是模型能力,而是你根本不知道它为什么会这么回答。这场演讲讲的不是炫技,而是 AI 工程化里最容易被忽视、却最致命的一环。

他们用 AI 调试 AI,一年后发现比写模型本身还重要的东西

当所有人都在讨论如何“把 AI 做得更聪明”时,incident.io 的创始工程师却踩中了一个更残酷的现实:真正让 AI 产品崩溃的,从来不是模型能力,而是你根本不知道它为什么会这么回答。这场演讲讲的不是炫技,而是 AI 工程化里最容易被忽视、却最致命的一环。

最反直觉的现实:AI 产品最难的不是建模,而是“解释失控”

Laurence Jones 一上来就点破了一个让无数 AI 工程师沉默的事实:当你的系统开始由成百上千个 prompt、agent、工具调用组成时,人类已经无法再靠直觉去 debug 它了

在 incident.io,他们并不是“为了 AI 而 AI”。这家公司做的是事故响应管理平台——本质上是高压、实时、不能出错的系统。而当他们把 AI 引入产品后,很快发现一个问题:事故发生时,用户不只想要一个“回复”,而是会反问系统——“现在到底发生了什么?”

这意味着,AI 不只是生成内容,而是要参与调查、推理、总结。但问题也随之爆炸:一次调查的背后,可能隐藏着几百甚至上千次 prompt 调用。当结果是错的,你连该怪哪一条 prompt 都不知道。

Jones 说,这类系统对人类来说“天然不友好”。不是因为模型太差,而是因为复杂度已经超过了人脑的调试上限。

Evals 不是评测,是 AI 的“单元测试”

很多团队把 eval 当成上线前的 KPI 检查,而 Jones 给了一个更工程化的定义:eval 就是 AI 的 unit test。

在 incident.io,eval 全部写在 YAML 里。每个 eval 描述一个输入、一个 prompt,以及一个判断逻辑——比如:让模型把一句话翻译成海盗语,然后用另一个模型或规则判断“像不像”。

听起来很简单,但真正落地后问题接踵而至:
- YAML 极其脆弱,改一行就可能全挂
- eval 数量一多,人类根本看不动
- prompt 改了,谁能保证没破坏旧能力?

他们一开始甚至做了一个“按钮”,让工程师手动点来跑 eval。很快他们意识到,这是在用 2010 年的方式维护 2026 年的系统。

于是,incident.io 干了一件很工程师的事:写了一个 CLI,让 agent 自己去读、改、跑 eval。

关键转折在这里:当 eval 不再只是人写给人看的测试,而是机器可以操作的对象,AI 开始第一次参与到“约束自己”这件事里。

当一个聊天机器人,背后是上千个 prompt

Jones 在演讲中展示了一张让人头皮发麻的图:一个看起来普通的 chatbot UI,背后却是一整张绿色方块构成的调用图。

每一个绿色块,展开后,都是几十到上百条 prompt。

这正是现代对话式 AI 的真相:
- 不是一个 prompt
- 不是一个 chain
- 而是一个动态生成、上下文交错、工具不断插入的网络

在这种系统里,传统的“看日志 + 猜原因”彻底失效。你甚至不知道该从哪一轮对话开始怀疑。

Jones 提到,Anthropic 在 Claude Code 上也踩到了同样的坑:当 AI 开始帮你写代码、改文件、跑测试,调试 AI 本身,已经变成一个系统级问题,而不是 prompt 工艺问题。

incident.io 的做法,是为这些复杂系统构建专门的 UI,把每一次 AI 决策、每一次 prompt 展开,让人类能“回放”AI 的思考路径。这不是为了好看,而是为了生存。

真正的突破:让 AI 自己修 AI

演讲后半段最有冲击力的一点是:他们已经不再只是“用 AI 辅助人类调试”,而是开始构建可重复的分析流水线

具体做法很务实:
- 把 prompt、eval、文件系统操作打包成标准化模块
- 让 agent 在失败时,自动定位相关 eval
- 修改 prompt 或逻辑
- 重新跑测试,直到确认修复

这不是完全自动化的“魔法 AI 工厂”,而是一种受控的、可回滚的工程流程。

Jones 特别强调了一点:优先级永远比聪明更重要。

与其追求更复杂的推理,不如先确保:
- 你知道 AI 在干什么
- 你能复现问题
- 你能确认修复真的生效

他们的经验是,这套体系能“字面意义上节省几天时间”。在事故响应这种分钟都值钱的场景里,这几乎是生死线。

总结

这场分享最值得记住的不是某个技巧,而是一个判断:AI 工程已经进入“对抗复杂度”的阶段。模型能力还在涨,但真正拉开差距的,是谁能更早把 eval、调试、回放、修复做成系统,而不是脚本。如果你正在做多 agent、长链路、工具密集型的 AI 产品,现在就该问自己三个问题:我能定位一次失败的根因吗?我能稳定复现它吗?我能确认修复没有破坏别的能力吗?如果答案是否定的,那你面对的不是技术债,而是一颗正在倒计时的雷。


关键词: AI 工程化, Evals, AI 调试, AI Agent, Claude Code

事实核查备注: 需核查:演讲者姓名 Laurence Jones;其身份为 incident.io 创始工程师;incident.io 产品定位为事故响应管理平台;演讲中提及 Anthropic 与 Claude Code 的具体语境;演讲时间与视频发布时间 2026-05-17。