正在加载视频...
视频章节
很多团队以为自己的 AI Agent 不够聪明,于是疯狂换模型、堆参数。但 Marc Klingen 讲了一场让人后背发凉的分享:问题根本不在模型,而在“技能”。这次,他把 Langfuse 在真实客户中训练 coding agent 的失败、反直觉认知和 6 个关键教训,全部摊开讲清楚。
“Agent 不是不聪明,是没技能”:Langfuse 创始人复盘踩过的 6 个大坑
很多团队以为自己的 AI Agent 不够聪明,于是疯狂换模型、堆参数。但 Marc Klingen 讲了一场让人后背发凉的分享:问题根本不在模型,而在“技能”。这次,他把 Langfuse 在真实客户中训练 coding agent 的失败、反直觉认知和 6 个关键教训,全部摊开讲清楚。
Agent 翻车的真相:不是模型不行,而是你没教会它怎么“用手”
一开场,Marc 就把很多 AI 团队最不愿承认的事实摆在台面上:我们高估了 Agent 的“自主能力”,低估了“技能设计”的复杂度。
他用一个极其形象的比喻开刀——魔方。给你一个魔方、给你无限时间、甚至给你“随便拧”的自由,你依然解不开;但一旦你有了说明书,一步一步照着做,事情立刻变得可控。
在他看来,今天的 coding agent 就处在“有手有脚但没说明书”的阶段。它们有 bash、有 API、有工具调用权限,看起来什么都能做,但不知道什么时候该做什么。这也是为什么行业里曾经爆发过那场著名的争论:Workflow vs. Fully Autonomous Agent。
Marc 的结论很直接,也很现实:这根本不是二选一的问题。没有技能(skills)的 agent,是无法规模化工作的;而纯 workflow,又会把系统变回 2020 年的自动化脚本。真正可用的系统,一定是两者的结合。
“加个 Agent 帮我接入 Langfuse”——听起来简单,实际是噩梦
真正的难题,出现在 Langfuse 自己身上。
客户开始提出一个听上去极其合理的需求:“我不想读几百页文档,能不能有个 Agent,直接帮我把 Langfuse 接进项目?”
如果你做过开发者工具,你会立刻意识到危险在哪里:这是一个开放世界问题。不同语言、不同框架、不同代码风格、不同基础设施状态,而用户给你的,往往只是一个模糊的文本输入框。
Marc 坦承,他们一开始也踩了坑——Agent 要么卡在工具调用上,要么在错误的上下文里“自作聪明”,甚至把事情越做越糟。问题并不是 Agent 不努力,而是:
- 它不知道成功的目标状态长什么样
- 它不知道什么时候该停
- 它不知道哪些步骤是绝对不能跳的
直到他们开始把“技能”当成一等公民,而不是 prompt 附属品,事情才开始好转。
真正拉开差距的,是“技能”的 3 个隐藏维度
在分享中,Marc 反复强调:Skill 不是一个 fancy 的名字,而是一套极其工程化的约束系统。
从他们的实践来看,一个可用的 skill,至少要明确三件事:
第一,清晰的目标边界。Agent 必须知道,这个技能的“完成态”是什么,而不是无限探索。否则它会陷入无意义的循环尝试。
第二,强约束的工具执行路径。不是“你可以用这些工具”,而是“在这个阶段,只能用这个工具”。Marc 特别指出,工具自由度越高,Agent 出错概率反而越大。
第三,可观测性不是事后分析,而是设计前提。Langfuse 之所以要把 tracing、evaluation 深度嵌入 skill,本质原因只有一个:如果你不能在执行过程中理解 Agent 在想什么,你就永远只能靠运气调系统。
这也解释了一个很多团队的困惑:为什么 demo 里看起来很聪明的 Agent,一到真实用户手里就疯狂翻车?答案是:demo 不需要技能体系,产品需要。
6 个血淋淋的教训:Agent 能不能落地,全看你信不信这些话
在演讲后半段,Marc 把所有经验压缩成 6 个 takeaways。他没有逐条念 PPT,而是反复强调其中一个核心思想:Agent 设计不是 AI 问题,是产品和工程问题。
这些教训背后,有一个共同指向:不要指望 Agent 自己“学会怎么帮你”。你必须提前决定:
- 它的目标是否足够具体
- 它的失败是否是可观测的
- 它的行为是否是可回滚、可纠正的
如果这些问题你答不上来,那么你现在做的,不是 Agent,而是一个不可控的随机系统。短期可能惊艳,长期一定翻车。
Marc 的态度并不悲观。相反,他认为:一旦技能模式跑通,Agent 会第一次真正进入“工程时代”,而不是停留在玩具阶段。
总结
这场分享最狠的一点在于,它戳破了一个行业幻觉:我们总以为再聪明一点的模型,就能解决 Agent 的一切问题。但 Langfuse 的实践证明,决定成败的,是你有没有把“技能”当成产品来设计。
如果你正在做 Agent,这里有一个立刻可执行的行动建议:别再问“模型够不够强”,先问自己三个问题——目标是否可判定?路径是否受约束?过程是否可观测?
能清楚回答这三点,你的 Agent 才有资格进入真实世界。否则,它永远只是一个看起来很聪明的 Demo。
关键词: AI Agent, Langfuse, Skill 设计, Agent 工程化, 可观测性
事实核查备注: 需要核查:Marc Klingen 的身份与头衔;Langfuse 成立时间(约三年前);Langfuse 在开源 tracing/evaluation 工具中的规模描述;演讲中提到的“6 个主要教训”是否完整对应原视频。