“Agent 不是不聪明，是没技能”：Langfuse 创始人复盘踩过的 6 个大坑

AI PM 编辑部 · 2026年05月20日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

很多团队以为自己的 AI Agent 不够聪明，于是疯狂换模型、堆参数。但 Marc Klingen 讲了一场让人后背发凉的分享：问题根本不在模型，而在“技能”。这次，他把 Langfuse 在真实客户中训练 coding agent 的失败、反直觉认知和 6 个关键教训，全部摊开讲清楚。

很多团队以为自己的 AI Agent 不够聪明，于是疯狂换模型、堆参数。但 Marc Klingen 讲了一场让人后背发凉的分享：问题根本不在模型，而在“技能”。这次，他把 Langfuse 在真实客户中训练 coding agent 的失败、反直觉认知和 6 个关键教训，全部摊开讲清楚。

一开场，Marc 就把很多 AI 团队最不愿承认的事实摆在台面上：我们高估了 Agent 的“自主能力”，低估了“技能设计”的复杂度。

他用一个极其形象的比喻开刀——魔方。给你一个魔方、给你无限时间、甚至给你“随便拧”的自由，你依然解不开；但一旦你有了说明书，一步一步照着做，事情立刻变得可控。

在他看来，今天的 coding agent 就处在“有手有脚但没说明书”的阶段。它们有 bash、有 API、有工具调用权限，看起来什么都能做，但不知道什么时候该做什么。这也是为什么行业里曾经爆发过那场著名的争论：Workflow vs. Fully Autonomous Agent。

Marc 的结论很直接，也很现实：这根本不是二选一的问题。没有技能（skills）的 agent，是无法规模化工作的；而纯 workflow，又会把系统变回 2020 年的自动化脚本。真正可用的系统，一定是两者的结合。

真正的难题，出现在 Langfuse 自己身上。

客户开始提出一个听上去极其合理的需求：“我不想读几百页文档，能不能有个 Agent，直接帮我把 Langfuse 接进项目？”

如果你做过开发者工具，你会立刻意识到危险在哪里：这是一个开放世界问题。不同语言、不同框架、不同代码风格、不同基础设施状态，而用户给你的，往往只是一个模糊的文本输入框。

Marc 坦承，他们一开始也踩了坑——Agent 要么卡在工具调用上，要么在错误的上下文里“自作聪明”，甚至把事情越做越糟。问题并不是 Agent 不努力，而是：

直到他们开始把“技能”当成一等公民，而不是 prompt 附属品，事情才开始好转。

在分享中，Marc 反复强调：Skill 不是一个 fancy 的名字，而是一套极其工程化的约束系统。

从他们的实践来看，一个可用的 skill，至少要明确三件事：

第一，清晰的目标边界。Agent 必须知道，这个技能的“完成态”是什么，而不是无限探索。否则它会陷入无意义的循环尝试。

第二，强约束的工具执行路径。不是“你可以用这些工具”，而是“在这个阶段，只能用这个工具”。Marc 特别指出，工具自由度越高，Agent 出错概率反而越大。

第三，可观测性不是事后分析，而是设计前提。Langfuse 之所以要把 tracing、evaluation 深度嵌入 skill，本质原因只有一个：如果你不能在执行过程中理解 Agent 在想什么，你就永远只能靠运气调系统。

这也解释了一个很多团队的困惑：为什么 demo 里看起来很聪明的 Agent，一到真实用户手里就疯狂翻车？答案是：demo 不需要技能体系，产品需要。

在演讲后半段，Marc 把所有经验压缩成 6 个 takeaways。他没有逐条念 PPT，而是反复强调其中一个核心思想：Agent 设计不是 AI 问题，是产品和工程问题。

这些教训背后，有一个共同指向：不要指望 Agent 自己“学会怎么帮你”。你必须提前决定：

如果这些问题你答不上来，那么你现在做的，不是 Agent，而是一个不可控的随机系统。短期可能惊艳，长期一定翻车。

Marc 的态度并不悲观。相反，他认为：一旦技能模式跑通，Agent 会第一次真正进入“工程时代”，而不是停留在玩具阶段。

这场分享最狠的一点在于，它戳破了一个行业幻觉：我们总以为再聪明一点的模型，就能解决 Agent 的一切问题。但 Langfuse 的实践证明，决定成败的，是你有没有把“技能”当成产品来设计。

如果你正在做 Agent，这里有一个立刻可执行的行动建议：别再问“模型够不够强”，先问自己三个问题——目标是否可判定？路径是否受约束？过程是否可观测？

能清楚回答这三点，你的 Agent 才有资格进入真实世界。否则，它永远只是一个看起来很聪明的 Demo。

关键词： AI Agent， Langfuse， Skill 设计， Agent 工程化，可观测性

事实核查备注：需要核查：Marc Klingen 的身份与头衔；Langfuse 成立时间（约三年前）；Langfuse 在开源 tracing/evaluation 工具中的规模描述；演讲中提到的“6 个主要教训”是否完整对应原视频。