他们用 AI 调试 AI，一年后发现比写模型本身还重要的东西

AI PM 编辑部 · 2026年05月17日 · 37 阅读 · AI/人工智能

对话AI 提示工程 AI应用 AI Agent Claude Code Anthropic

正在加载视频...

视频章节

当所有人都在讨论如何“把 AI 做得更聪明”时，incident.io 的创始工程师却踩中了一个更残酷的现实：真正让 AI 产品崩溃的，从来不是模型能力，而是你根本不知道它为什么会这么回答。这场演讲讲的不是炫技，而是 AI 工程化里最容易被忽视、却最致命的一环。

他们用 AI 调试 AI，一年后发现比写模型本身还重要的东西

当所有人都在讨论如何“把 AI 做得更聪明”时，incident.io 的创始工程师却踩中了一个更残酷的现实：真正让 AI 产品崩溃的，从来不是模型能力，而是你根本不知道它为什么会这么回答。这场演讲讲的不是炫技，而是 AI 工程化里最容易被忽视、却最致命的一环。

最反直觉的现实：AI 产品最难的不是建模，而是“解释失控”

Laurence Jones 一上来就点破了一个让无数 AI 工程师沉默的事实：当你的系统开始由成百上千个 prompt、agent、工具调用组成时，人类已经无法再靠直觉去 debug 它了。

在 incident.io，他们并不是“为了 AI 而 AI”。这家公司做的是事故响应管理平台——本质上是高压、实时、不能出错的系统。而当他们把 AI 引入产品后，很快发现一个问题：事故发生时，用户不只想要一个“回复”，而是会反问系统——“现在到底发生了什么？”

这意味着，AI 不只是生成内容，而是要参与调查、推理、总结。但问题也随之爆炸：一次调查的背后，可能隐藏着几百甚至上千次 prompt 调用。当结果是错的，你连该怪哪一条 prompt 都不知道。

Jones 说，这类系统对人类来说“天然不友好”。不是因为模型太差，而是因为复杂度已经超过了人脑的调试上限。

Evals 不是评测，是 AI 的“单元测试”

很多团队把 eval 当成上线前的 KPI 检查，而 Jones 给了一个更工程化的定义：eval 就是 AI 的 unit test。

在 incident.io，eval 全部写在 YAML 里。每个 eval 描述一个输入、一个 prompt，以及一个判断逻辑——比如：让模型把一句话翻译成海盗语，然后用另一个模型或规则判断“像不像”。

听起来很简单，但真正落地后问题接踵而至：
- YAML 极其脆弱，改一行就可能全挂
- eval 数量一多，人类根本看不动
- prompt 改了，谁能保证没破坏旧能力？

他们一开始甚至做了一个“按钮”，让工程师手动点来跑 eval。很快他们意识到，这是在用 2010 年的方式维护 2026 年的系统。

于是，incident.io 干了一件很工程师的事：写了一个 CLI，让 agent 自己去读、改、跑 eval。

关键转折在这里：当 eval 不再只是人写给人看的测试，而是机器可以操作的对象，AI 开始第一次参与到“约束自己”这件事里。

当一个聊天机器人，背后是上千个 prompt

Jones 在演讲中展示了一张让人头皮发麻的图：一个看起来普通的 chatbot UI，背后却是一整张绿色方块构成的调用图。

每一个绿色块，展开后，都是几十到上百条 prompt。

这正是现代对话式 AI 的真相：
- 不是一个 prompt
- 不是一个 chain
- 而是一个动态生成、上下文交错、工具不断插入的网络

在这种系统里，传统的“看日志 + 猜原因”彻底失效。你甚至不知道该从哪一轮对话开始怀疑。

Jones 提到，Anthropic 在 Claude Code 上也踩到了同样的坑：当 AI 开始帮你写代码、改文件、跑测试，调试 AI 本身，已经变成一个系统级问题，而不是 prompt 工艺问题。

incident.io 的做法，是为这些复杂系统构建专门的 UI，把每一次 AI 决策、每一次 prompt 展开，让人类能“回放”AI 的思考路径。这不是为了好看，而是为了生存。

真正的突破：让 AI 自己修 AI

演讲后半段最有冲击力的一点是：他们已经不再只是“用 AI 辅助人类调试”，而是开始构建可重复的分析流水线。

具体做法很务实：
- 把 prompt、eval、文件系统操作打包成标准化模块
- 让 agent 在失败时，自动定位相关 eval
- 修改 prompt 或逻辑
- 重新跑测试，直到确认修复

这不是完全自动化的“魔法 AI 工厂”，而是一种受控的、可回滚的工程流程。

Jones 特别强调了一点：优先级永远比聪明更重要。

与其追求更复杂的推理，不如先确保：
- 你知道 AI 在干什么
- 你能复现问题
- 你能确认修复真的生效

他们的经验是，这套体系能“字面意义上节省几天时间”。在事故响应这种分钟都值钱的场景里，这几乎是生死线。

总结

这场分享最值得记住的不是某个技巧，而是一个判断：AI 工程已经进入“对抗复杂度”的阶段。模型能力还在涨，但真正拉开差距的，是谁能更早把 eval、调试、回放、修复做成系统，而不是脚本。如果你正在做多 agent、长链路、工具密集型的 AI 产品，现在就该问自己三个问题：我能定位一次失败的根因吗？我能稳定复现它吗？我能确认修复没有破坏别的能力吗？如果答案是否定的，那你面对的不是技术债，而是一颗正在倒计时的雷。

关键词： AI 工程化， Evals， AI 调试， AI Agent， Claude Code

事实核查备注：需核查：演讲者姓名 Laurence Jones；其身份为 incident.io 创始工程师；incident.io 产品定位为事故响应管理平台；演讲中提及 Anthropic 与 Claude Code 的具体语境；演讲时间与视频发布时间 2026-05-17。

返回文章列表