Notion AI的真实构建逻辑：从狗粮测试到Q&A的产品方法论

AI PM 编辑部 · 2023年12月11日 · 4 阅读 · AI/人工智能

模型训练上下文窗口 Transformer 无监督学习生成式AI 提示工程 AI应用对话AI 检索增强生成 AI搜索

正在加载视频...

视频章节

这期RedpointAI播客请来了Notion AI团队核心成员，系统讲述了Notion如何在极小团队规模下，快速交付AI Writer、Autofill和Q&A等产品，并在评估、提示工程和组织结构上形成一套独特方法论。

Notion AI的真实构建逻辑：从狗粮测试到Q&A的产品方法论

这期RedpointAI播客请来了Notion AI团队核心成员，系统讲述了Notion如何在极小团队规模下，快速交付AI Writer、Autofill和Q&A等产品，并在评估、提示工程和组织结构上形成一套独特方法论。

为什么Notion能这么快把AI“做进产品”

这一期播客最有价值的地方，并不在于Notion用了哪些模型，而在于它如何组织探索。Lonus Lee提到，他加入Notion AI团队时，团队的目标并不是“先定义一个完美的AI产品”，而是尽快把AI能力放进真实工作流中。Notion AI Writer的最初定位很朴素：帮助写作、总结页面、改进语法和风格。但关键在于，它被设计成“人和AI反复协作”的过程，而不是一次性生成结果。

Notion内部非常强调dogfooding，也就是员工高频使用自己做的AI工具。Lonus直言，很多方向并不是通过用户访谈发现的，而是“我们自己被AI原型烦到，才意识到它必须变得更好”。这种先做出“很糟但可用”的内部版本，再被真实使用反复打磨的方式，让团队能在极短时间内判断方向是否值得继续投入。

他用一个形象的说法总结这种节奏：“在hacky的探索和传统PM流程之间来回伸缩。”先极度发散，快速原型；一旦看到信号，再迅速收敛，补上工程质量、评估体系和安全设计。这种循环，是Notion能在众多AI应用中率先落地的关键。

从AI Writer到Autofill：AI如何嵌入结构化工作

如果说AI Writer解决的是“空白页恐惧”，那AI Autofill则是Notion AI向结构化数据迈出的重要一步。Autofill的能力，是自动填充整列数据库字段，比如会议记录、客户访谈、调研表格中的关键信息提取。这类场景对准确性和一致性要求远高于写作，也是Notion选择继续推进的原因。

Lonus提到，Autofill的出现源于一个非常现实的问题：大量团队已经在Notion里用数据库管理工作，但整理信息仍然高度依赖人工。AI的价值不是生成新内容，而是“把已经存在的信息，变成可用的结构”。这也解释了为什么Notion AI的很多功能看起来并不炫酷，却极其高频。

在这里，Notion逐渐形成了一个清晰判断标准：AI是否真正节省了时间，而不是制造新的确认成本。如果用户还需要逐条检查AI填的内容，那产品就是失败的。这种对“真实效率”的苛刻要求，也为后来的Q&A埋下了技术和产品上的伏笔。

Notion Q&A：把RAG真正做成可用产品

Notion Q&A被认为是他们迄今为止最难的一项功能，本质上是在解决大型工作区里的信息查找问题。不同于简单的聊天机器人，Q&A的目标是替代搜索：用户直接提问，系统在整个工作区中检索并生成答案。这背后依赖的是检索增强生成（RAG），即先检索相关文档，再基于文档生成回答。

难点并不在于“能不能回答”，而在于“能不能答对”。Lonus特别提到时间相关问题、边界条件，以及权限和隐私，都是非常棘手的坑。比如，一个问题在不同时间节点可能有不同答案，而AI必须基于最新、且用户有权限访问的内容作答。

为此，Notion内部搭建了一整套评估工具，直接基于结构化的Notion文档进行测试。评估方式覆盖从程序化测试，到人工逐条检查的全光谱流程。Lonus强调：“如果你不能快速、持续地评估正确性，就不可能把Q&A这种产品真正交付给用户。”这也是为什么Notion宁愿慢一点上线，也要先把评估体系打牢。

提示工程、模型合作与团队规模的现实选择

在模型层面，Notion选择与OpenAI和Anthropic合作，并明确表示不会用客户数据训练模型。取而代之的是大量任务级评估和合成数据，用来比较不同模型在具体场景下的表现。Lonus提到，提示工程在这里的一个重要目标，是“跨模型可迁移性”，也就是尽量让同一套指令在不同模型上都能稳定工作。

一个有意思的细节是，多语言和跨语言Q&A被认为是提示工程的试金石。如果一个提示在英语下表现很好，但换语言就崩溃，那说明抽象层级还不够。

团队规模同样出乎很多人意料：整个Notion AI团队只有十几个人，一部分专注模型质量，一部分专注产品集成。关于是否采用“中心AI团队”还是“嵌入式AI工程师”，他们仍在探索。但可以确定的是，小团队迫使他们在方向选择上异常克制，只做最有确定性的事情。

被低估与被高估的AI趋势

在快问快答环节，Lonus抛出了几个耐人寻味的判断。他认为，当前被过度炒作的是上下文窗口长度，很多问题并不是“放不下”，而是“检索和组织方式不对”。相反，一些替代Transformer的架构探索，可能被低估了长期潜力。

谈到最大的意外收获，他提到自己对“通用模型 vs 专用系统”的看法发生了变化。通用模型能力提升极快，但真正优秀的产品，仍然来自对具体任务的深度打磨。他也特别提到对Midjourney、Adept这类实验室风格团队的关注，认为它们在产品与模型协同上提供了不同范式。

总结

这期关于Notion AI的对话，真正有价值的不是某个功能细节，而是一整套可复用的方法论：用狗粮测试发现方向，用严格评估保障质量，用小团队保持克制。它提醒我们，AI产品的竞争，早已从“谁接了更强的模型”，转向“谁更理解真实工作”。对任何想把AI做进产品的人来说，这是一次非常具体、也非常现实的参考。

关键词： Notion AI，检索增强生成，提示工程， AI产品方法论， OpenAI

事实核查备注：视频嘉宾：Lonus Lee（Notion AI团队核心成员）；节目：RedpointAI Podcast；AI功能：Notion AI Writer、AI Autofill、Notion Q&A；技术概念：检索增强生成（RAG）、提示工程、Transformer、上下文窗口；合作公司：OpenAI、Anthropic；团队规模：约十几人（dozen people）。

返回文章列表