正在加载视频...
视频章节
大多数人还在 Prompt 上反复手调,Pydantic 创始人 Samuel Colvin 已经在生产环境里“养”AI Agent 了:跑评测、做对比、用类似进化算法的方法自动找更好的提示词。这场分享把一个残酷现实讲透了——Agent 真正难的,不是写代码,而是如何在真实世界持续变聪明。
Pydantic 作者在生产环境玩“进化论”:AI Agent 其实是这样被优化出来的
大多数人还在 Prompt 上反复手调,Pydantic 创始人 Samuel Colvin 已经在生产环境里“养”AI Agent 了:跑评测、做对比、用类似进化算法的方法自动找更好的提示词。这场分享把一个残酷现实讲透了——Agent 真正难的,不是写代码,而是如何在真实世界持续变聪明。
最反直觉的一点:Prompt 不是设计出来的,是“跑”出来的
Samuel Colvin 一上来就点破了一个很多从业者不愿承认的事实:在生产环境里,Prompt 几乎不可能靠“灵感”一次写对。
他展示的不是某个“神级提示词”,而是一整套流程:先把 Agent 丢进真实任务里跑 eval,看整体表现,再用对比和自动化优化去逼近更优解。第一次评测的结果是 85%——看起来不差,但在生产环境里,这 15% 的失败,足以让产品翻车。
这背后的观念转变非常重要:Prompt 不再是静态配置,而是一个可以被测量、被比较、被优化的对象。你不是在“写 Prompt”,而是在“训练 Prompt 的搜索过程”。
AI Agent 真正容易翻车的地方:不是能力,而是“关系判断”
在具体案例中,Samuel 选了一个看似简单、实则非常刁钻的任务:和政治相关的分类与判断。
他提到,Pydantic AI Agent 在这个任务中最容易混淆的,不是语言理解能力,而是“关系是否属于政治语境”。这点非常现实——模型并不缺知识,缺的是边界感。
这也是为什么传统的 prompt engineering 往往效果有限:你加再多规则,Agent 依然会在灰色地带犯错。Samuel 的做法不是继续堆规则,而是承认不确定性,通过系统化 eval 把问题暴露出来,再交给优化流程处理。
一句话总结:Agent 的失败模式,必须被量化,否则你永远在修表面。
像“育种”一样优化 Prompt:Jepper 登场
这场分享里最有意思的隐喻,来自 Samuel 对 Jepper 的描述。
他的原话大意是:你把最好的资源“breed”在一起,希望得到更好的资源。Jepper 做的事情也类似——它不是魔法,而是一种对比和选择机制。
通过 compare,不同 Prompt、不同变量配置被放在同一个评测框架下竞争。结果不是凭感觉,而是看谁在 eval 里活下来。
Samuel 也非常坦诚地指出:这种优化技术虽然是当前的 state-of-the-art,但并不“惊世骇俗”。真正的价值在于,它让 Prompt 优化第一次变成了一件工程问题,而不是玄学。
为什么 Eval 这么难?因为真实世界不会等你
在演示过程中,有一次优化跑完的时间明显超出预期。Samuel 顺势说了一句非常真实的话:这正是 eval 困难的原因之一。
在生产环境里,评测不是实验室里的离线作业,而是会受到时间、成本、系统状态影响的现实过程。你想要更可靠的结果,就必须接受更慢、更复杂的流程。
这也解释了为什么很多团队“知道 eval 很重要,但就是没做”:不是不想,而是代价太高。但 Samuel 的态度很明确——不做 eval 的 Agent,只是一个随时可能失控的黑盒。
Managed Variables:Prompt 开始像配置系统一样演化
分享的最后一个关键点,是 managed variables。
Samuel 展示了这样一个能力:当你再次问同样的问题时,某个定义为系统 Prompt 的变量,已经被更新了。也就是说,Prompt 不再是写死在代码里的字符串,而是一个可以被策略修改的变量集合。
更重要的是,这种变量可以是多个。你可以同时调整不同维度,看它们如何影响最终表现。
这一步,几乎是把 Prompt Engineering 推向了“配置管理 + 优化系统”的方向,也为真正的生产级 Agent 打开了大门。
总结
这场分享真正值得反复回味的,不是某个具体工具,而是一种工作方式的转变:从“我觉得这个 Prompt 不错”,到“数据告诉我哪个 Prompt 更好”。
如果你正在做 AI Agent,这里有三个直接可执行的 takeaway:第一,尽早建立 eval,不然你优化的只是幻觉;第二,把 Prompt 当成可变资产,而不是常量;第三,接受优化是一个持续过程,而不是一次性工作。
最后留一个问题:当 Prompt、变量和优化流程都自动化之后,AI 工程师的核心竞争力,会不会从“写得好”变成“设计好搜索空间”?
关键词: AI Agent, 提示工程, Pydantic AI, 生产环境优化, Eval
事实核查备注: 1. Samuel Colvin 的身份与其在 Pydantic 的角色表述是否准确;2. Jepper 的名称拼写与具体功能描述;3. 视频中提到的 85% 性能数据是否有更多上下文;4. 视频实际时长与内容覆盖范围;5. Managed Variables 是否为官方术语或现场描述