Notion内部罕见自白:自定义Agent、Evals卡住30%,以及为什么AI只替代流程

AI PM 编辑部 · 2026年04月15日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期 Latent Space 对谈里,Notion 团队并没有炫技,而是罕见地讲清楚了他们在 AI 落地中真正被卡住的地方:上下文窗口太短、权限系统反复推倒重来、Evals 只有 30% 能通过。更反直觉的是,他们认为 AI 的终局不是“替代人”,而是“吃掉流程”。

Notion内部罕见自白:自定义Agent、Evals卡住30%,以及为什么AI只替代流程

在这期 Latent Space 对谈里,Notion 团队并没有炫技,而是罕见地讲清楚了他们在 AI 落地中真正被卡住的地方:上下文窗口太短、权限系统反复推倒重来、Evals 只有 30% 能通过。更反直觉的是,他们认为 AI 的终局不是“替代人”,而是“吃掉流程”。

一个反直觉的判断:AI 最先爆发的地方不是 UI,而是 CLI

对话一开始,Notion 团队抛出了一个让很多人意外的观点:他们“非常看好 CLI”。在大多数公司忙着把 AI 包进更花哨的界面时,Notion 却在内部投入资源建设命令行式的工作流。

背后的逻辑很务实——当 Agent 需要频繁调用工具、组合能力、自动跑流程时,CLI 反而是表达力最高、摩擦最小的界面。这也解释了为什么他们强调“我们在搭一个很强的团队”,而不是“我们做了一个很酷的 Demo”。

这其实点破了一个行业误区:AI 产品早期的竞争力,不在于用户第一眼看到什么,而在于内部是否有足够快的实验和迭代速度。CLI,是给构建者用的加速器。

免费三个月,也救不了上下文窗口太短的问题

Notion AI 早期的一个关键策略是“免费开放三个月”,目的是拉高使用量、快速收集真实反馈。但团队很快发现,真正限制体验的不是价格,而是模型能力本身——尤其是上下文窗口。

他们直言不讳:当时的 context length“真的太短了”。这直接影响了 Agent 的可靠性,也让很多看似简单的任务在真实工作流中崩溃。

更现实的一点是:上下文并不是越长越好。到今天,他们反而在“拼命把 prompt 压短”。原因很简单——上下文越长,成本、延迟、不确定性都会上升。这是一个不断拉扯的工程问题,而不是一句‘等模型变强就好了’能解决的。

权限、协作、Evals:AI 真正难的是这些脏活累活

如果你以为做 Agent 最难的是 prompt,那 Notion 的经历会给你泼一盆冷水。

他们提到,权限系统(permissioning)“反复推倒重来好几次”。原因在于:一旦 Agent 能代表人行动,谁能看什么、改什么、触发什么,就不再是 UI 层的问题,而是组织结构的问题。

更硬核的是 Evals。Notion 有一部分团队是“专门为 Evals 而存在的”,但即便如此,内部能稳定通过的评估也只有大约 30%。这意味着,大多数想法在进入生产前就被挡了下来。

这也解释了为什么他们强调协作理解——AI 不只是一个聪明的工具,而是要嵌入多人协作的真实场景,而这正是最难被标准化的部分。

不是替代人,而是吃掉流程

在被问到一个“有点辣”的问题时,Notion 团队给出了一个非常克制、但很有力量的回答:“它不是在替代人,而是在替代流程。”

这句话背后,是他们对未来工作的判断:AI 不会直接把岗位抹掉,而是会让原本需要人来维护、对齐、同步的流程自动化。

当流程被压缩,人的价值反而会被重新放大——决策、判断、创造,而不是复制粘贴和状态同步。这也解释了他们为什么在招聘时看重能跨技术与业务的人,以及为什么对‘下一步该投哪里’如此谨慎。

从文本到图像:一次“顺着用户走”的上线

在聊到 Notion 里的图像生成功能时,团队并没有把它包装成一次宏大的战略,而是强调:这是在理解用户真实需求后的自然结果。

他们观察到,用户并不是想“玩模型”,而是想在同一个协作空间里,把想法变成可讨论、可共享的素材。于是,文本生成图像被放进了 Notion,而不是另起一个产品。

这再次呼应了他们的核心判断:技术选择永远服务于协作方式,而不是反过来。

总结

这期对谈最有价值的地方,不在于某个炫目的功能,而在于 Notion 团队对“AI 真正难在哪里”的清醒认识:上下文、权限、Evals、流程,这些看似不性感的部分,才决定了产品能不能活下来。

对 AI 从业者来说,最大的 takeaway 是:别急着追模型参数或新花样,先问问自己——你的系统,是否真的理解了人的协作方式?你是在做一个聪明的工具,还是在重构一个低效的流程?

一个值得思考的问题是:当流程被 AI 吃掉之后,你现在投入精力的那部分工作,还剩下多少不可替代的价值?


关键词: Notion AI, 自定义Agent, Evals评估, 上下文窗口, 提示工程

事实核查备注: 需要核查:1)提到的 18 个月时间判断的具体语境;2)Evals 通过率约 30% 的内部说法;3)Notion AI 免费三个月的具体时间点;4)CLI 投入是否为公开战略;5)图像生成功能上线的具体范围与时间。