Notion内部罕见自白：自定义Agent、Evals卡住30%，以及为什么AI只替代流程

AI PM 编辑部 · 2026年04月15日 · 70 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期 Latent Space 对谈里，Notion 团队并没有炫技，而是罕见地讲清楚了他们在 AI 落地中真正被卡住的地方：上下文窗口太短、权限系统反复推倒重来、Evals 只有 30% 能通过。更反直觉的是，他们认为 AI 的终局不是“替代人”，而是“吃掉流程”。

在这期 Latent Space 对谈里，Notion 团队并没有炫技，而是罕见地讲清楚了他们在 AI 落地中真正被卡住的地方：上下文窗口太短、权限系统反复推倒重来、Evals 只有 30% 能通过。更反直觉的是，他们认为 AI 的终局不是“替代人”，而是“吃掉流程”。

对话一开始，Notion 团队抛出了一个让很多人意外的观点：他们“非常看好 CLI”。在大多数公司忙着把 AI 包进更花哨的界面时，Notion 却在内部投入资源建设命令行式的工作流。

背后的逻辑很务实——当 Agent 需要频繁调用工具、组合能力、自动跑流程时，CLI 反而是表达力最高、摩擦最小的界面。这也解释了为什么他们强调“我们在搭一个很强的团队”，而不是“我们做了一个很酷的 Demo”。

这其实点破了一个行业误区：AI 产品早期的竞争力，不在于用户第一眼看到什么，而在于内部是否有足够快的实验和迭代速度。CLI，是给构建者用的加速器。

Notion AI 早期的一个关键策略是“免费开放三个月”，目的是拉高使用量、快速收集真实反馈。但团队很快发现，真正限制体验的不是价格，而是模型能力本身——尤其是上下文窗口。

他们直言不讳：当时的 context length“真的太短了”。这直接影响了 Agent 的可靠性，也让很多看似简单的任务在真实工作流中崩溃。

更现实的一点是：上下文并不是越长越好。到今天，他们反而在“拼命把 prompt 压短”。原因很简单——上下文越长，成本、延迟、不确定性都会上升。这是一个不断拉扯的工程问题，而不是一句‘等模型变强就好了’能解决的。

如果你以为做 Agent 最难的是 prompt，那 Notion 的经历会给你泼一盆冷水。

他们提到，权限系统（permissioning）“反复推倒重来好几次”。原因在于：一旦 Agent 能代表人行动，谁能看什么、改什么、触发什么，就不再是 UI 层的问题，而是组织结构的问题。

更硬核的是 Evals。Notion 有一部分团队是“专门为 Evals 而存在的”，但即便如此，内部能稳定通过的评估也只有大约 30%。这意味着，大多数想法在进入生产前就被挡了下来。

这也解释了为什么他们强调协作理解——AI 不只是一个聪明的工具，而是要嵌入多人协作的真实场景，而这正是最难被标准化的部分。

在被问到一个“有点辣”的问题时，Notion 团队给出了一个非常克制、但很有力量的回答：“它不是在替代人，而是在替代流程。”

这句话背后，是他们对未来工作的判断：AI 不会直接把岗位抹掉，而是会让原本需要人来维护、对齐、同步的流程自动化。

当流程被压缩，人的价值反而会被重新放大——决策、判断、创造，而不是复制粘贴和状态同步。这也解释了他们为什么在招聘时看重能跨技术与业务的人，以及为什么对‘下一步该投哪里’如此谨慎。

在聊到 Notion 里的图像生成功能时，团队并没有把它包装成一次宏大的战略，而是强调：这是在理解用户真实需求后的自然结果。

他们观察到，用户并不是想“玩模型”，而是想在同一个协作空间里，把想法变成可讨论、可共享的素材。于是，文本生成图像被放进了 Notion，而不是另起一个产品。

这再次呼应了他们的核心判断：技术选择永远服务于协作方式，而不是反过来。

这期对谈最有价值的地方，不在于某个炫目的功能，而在于 Notion 团队对“AI 真正难在哪里”的清醒认识：上下文、权限、Evals、流程，这些看似不性感的部分，才决定了产品能不能活下来。

对 AI 从业者来说，最大的 takeaway 是：别急着追模型参数或新花样，先问问自己——你的系统，是否真的理解了人的协作方式？你是在做一个聪明的工具，还是在重构一个低效的流程？

一个值得思考的问题是：当流程被 AI 吃掉之后，你现在投入精力的那部分工作，还剩下多少不可替代的价值？

关键词： Notion AI，自定义Agent， Evals评估，上下文窗口，提示工程

事实核查备注：需要核查：1）提到的 18 个月时间判断的具体语境；2）Evals 通过率约 30% 的内部说法；3）Notion AI 免费三个月的具体时间点；4）CLI 投入是否为公开战略；5）图像生成功能上线的具体范围与时间。