Pydantic 作者在生产环境玩“进化论”：AI Agent 其实是这样被优化出来的

AI PM 编辑部 · 2026年05月07日 · 41 阅读 · AI/人工智能

正在加载视频...

视频章节

大多数人还在 Prompt 上反复手调，Pydantic 创始人 Samuel Colvin 已经在生产环境里“养”AI Agent 了：跑评测、做对比、用类似进化算法的方法自动找更好的提示词。这场分享把一个残酷现实讲透了——Agent 真正难的，不是写代码，而是如何在真实世界持续变聪明。

Pydantic 作者在生产环境玩“进化论”：AI Agent 其实是这样被优化出来的

大多数人还在 Prompt 上反复手调，Pydantic 创始人 Samuel Colvin 已经在生产环境里“养”AI Agent 了：跑评测、做对比、用类似进化算法的方法自动找更好的提示词。这场分享把一个残酷现实讲透了——Agent 真正难的，不是写代码，而是如何在真实世界持续变聪明。

最反直觉的一点：Prompt 不是设计出来的，是“跑”出来的

Samuel Colvin 一上来就点破了一个很多从业者不愿承认的事实：在生产环境里，Prompt 几乎不可能靠“灵感”一次写对。

他展示的不是某个“神级提示词”，而是一整套流程：先把 Agent 丢进真实任务里跑 eval，看整体表现，再用对比和自动化优化去逼近更优解。第一次评测的结果是 85%——看起来不差，但在生产环境里，这 15% 的失败，足以让产品翻车。

这背后的观念转变非常重要：Prompt 不再是静态配置，而是一个可以被测量、被比较、被优化的对象。你不是在“写 Prompt”，而是在“训练 Prompt 的搜索过程”。

AI Agent 真正容易翻车的地方：不是能力，而是“关系判断”

在具体案例中，Samuel 选了一个看似简单、实则非常刁钻的任务：和政治相关的分类与判断。

他提到，Pydantic AI Agent 在这个任务中最容易混淆的，不是语言理解能力，而是“关系是否属于政治语境”。这点非常现实——模型并不缺知识，缺的是边界感。

这也是为什么传统的 prompt engineering 往往效果有限：你加再多规则，Agent 依然会在灰色地带犯错。Samuel 的做法不是继续堆规则，而是承认不确定性，通过系统化 eval 把问题暴露出来，再交给优化流程处理。

一句话总结：Agent 的失败模式，必须被量化，否则你永远在修表面。

像“育种”一样优化 Prompt：Jepper 登场

这场分享里最有意思的隐喻，来自 Samuel 对 Jepper 的描述。

他的原话大意是：你把最好的资源“breed”在一起，希望得到更好的资源。Jepper 做的事情也类似——它不是魔法，而是一种对比和选择机制。

通过 compare，不同 Prompt、不同变量配置被放在同一个评测框架下竞争。结果不是凭感觉，而是看谁在 eval 里活下来。

Samuel 也非常坦诚地指出：这种优化技术虽然是当前的 state-of-the-art，但并不“惊世骇俗”。真正的价值在于，它让 Prompt 优化第一次变成了一件工程问题，而不是玄学。

为什么 Eval 这么难？因为真实世界不会等你

在演示过程中，有一次优化跑完的时间明显超出预期。Samuel 顺势说了一句非常真实的话：这正是 eval 困难的原因之一。

在生产环境里，评测不是实验室里的离线作业，而是会受到时间、成本、系统状态影响的现实过程。你想要更可靠的结果，就必须接受更慢、更复杂的流程。

这也解释了为什么很多团队“知道 eval 很重要，但就是没做”：不是不想，而是代价太高。但 Samuel 的态度很明确——不做 eval 的 Agent，只是一个随时可能失控的黑盒。

Managed Variables：Prompt 开始像配置系统一样演化

分享的最后一个关键点，是 managed variables。

Samuel 展示了这样一个能力：当你再次问同样的问题时，某个定义为系统 Prompt 的变量，已经被更新了。也就是说，Prompt 不再是写死在代码里的字符串，而是一个可以被策略修改的变量集合。

更重要的是，这种变量可以是多个。你可以同时调整不同维度，看它们如何影响最终表现。

这一步，几乎是把 Prompt Engineering 推向了“配置管理 + 优化系统”的方向，也为真正的生产级 Agent 打开了大门。

总结

这场分享真正值得反复回味的，不是某个具体工具，而是一种工作方式的转变：从“我觉得这个 Prompt 不错”，到“数据告诉我哪个 Prompt 更好”。

如果你正在做 AI Agent，这里有三个直接可执行的 takeaway：第一，尽早建立 eval，不然你优化的只是幻觉；第二，把 Prompt 当成可变资产，而不是常量；第三，接受优化是一个持续过程，而不是一次性工作。

最后留一个问题：当 Prompt、变量和优化流程都自动化之后，AI 工程师的核心竞争力，会不会从“写得好”变成“设计好搜索空间”？

关键词： AI Agent，提示工程， Pydantic AI，生产环境优化， Eval

事实核查备注： 1. Samuel Colvin 的身份与其在 Pydantic 的角色表述是否准确；2. Jepper 的名称拼写与具体功能描述；3. 视频中提到的 85% 性能数据是否有更多上下文；4. 视频实际时长与内容覆盖范围；5. Managed Variables 是否为官方术语或现场描述

返回文章列表