正在加载视频...
视频章节
很多团队都在“做 AI Agent”,但 Ara Khan 在这场分享里毫不客气地指出:大多数人只是在生产 Slop。真正有价值的 Agent,不是换个框架就升级,而是要跨越四个成熟度层级,其中第三层甚至逼近强化学习系统的设计方式。
别再用框架堆“AI垃圾”了:真正成熟的Agent有4个层级
很多团队都在“做 AI Agent”,但 Ara Khan 在这场分享里毫不客气地指出:大多数人只是在生产 Slop。真正有价值的 Agent,不是换个框架就升级,而是要跨越四个成熟度层级,其中第三层甚至逼近强化学习系统的设计方式。
最刺耳的开场:99%的 AI Agent,其实不该存在
这场演讲一上来就不讨好人。Ara Khan 抛出的核心判断是:如果你只是“用了一个 Agent 框架”,那你大概率只是在制造噪音,而不是系统能力。
他把这种状态称为 Level 1:直接调用现成框架,把 LLM 包一层壳,就敢叫 Agent。好处是快,坏处是——你根本不知道它为什么成功、为什么失败,更谈不上演进。这个观点之所以刺耳,是因为它击中了当前行业最流行的做法:Demo 很炫,系统却极其脆弱。
一句话总结 Level 1 的问题:“你没有在构建系统,你只是消费抽象。”
从“会用框架”到“自己造 Agent”,差的不只是代码量
Level 2,才是真正开始“做工程”。Ara Khan 的定义很直接:你不再完全依赖框架,而是自己设计 Agent 的结构、状态和行为逻辑。
这一步看起来只是工程能力升级,实际上是认知转变。你需要明确:Agent 的输入输出是什么?中间状态如何保存?失败如何回退?哪些能力该硬编码,哪些该交给模型?
他特别强调了一点:这时候,团队里“最懂业务的人”往往比“最懂模型的人”更重要。因为 Agent 的价值,不在于 prompt 写得多漂亮,而在于是否真的嵌进了真实工作流。
真正的分水岭:把 Agent 拉进“伪强化学习”流水线
Level 3,是整场演讲信息密度最高、也最容易被忽略的一层。
Ara Khan 的原话很克制,但意思很重:成熟的 Agent,必须能被当成一个可测试、可评估、可优化的对象,像强化学习里的 policy 一样被反复迭代。
这意味着什么?意味着你不能只看“这次跑通了没”,而是要有评测、有反馈、有版本对比。哪怕你不用完整的 RL 算法,也要有类似的 pipeline:定义目标 → 执行 → 评估 → 调整。
很多团队卡在这里,因为这一步会强迫你正视一个问题:你的 Agent,到底是在“偶尔聪明”,还是在“稳定进化”?
Level 4 的暗示:Agent 将变成组织结构的一部分
最后一层,Ara Khan 没有展开太多实现细节,但给了一个非常有画面感的比喻:用 Kanban 看 Agent。
在他的描述里,Agent 像一个工程经理,在不同成熟度层级之间上下滑动:有些任务适合低自治,有些必须高度自治;有些阶段需要人介入,有些可以完全放手。
这实际上是在暗示一个趋势:当 Agent 成熟到一定程度,它不再只是“工具”,而是组织运作的一部分,和流程、角色、责任一起被设计。
总结
这场分享最重要的 takeaway 不是“如何做一个更复杂的 Agent”,而是:别急着炫技,先想清楚你处在哪个成熟度层级。Level 1 的 Agent 可以用来探索,Level 2 用来落地,Level 3 才有资格谈规模化。
如果你正在做 AI Agent,一个很实用的自检问题是:我的系统有没有稳定的评估和反馈机制?如果没有,那它离真正的“智能系统”还差得很远。下一波拉开差距的,不是模型参数,而是这些看起来不性感、却决定生死的工程与系统设计能力。
关键词: AI Agent, Agent 成熟度, 强化学习, 系统设计, AI 工程
事实核查备注: 需要核查:视频完整时长;Ara Khan 的完整身份与背景;视频中是否明确提出“4 Levels of AI Agent Maturity”的原始表述;Kanban 比喻的原始上下文。