Notion AI的真实构建逻辑:从狗粮测试到Q&A的产品方法论
正在加载视频...
视频章节
这期RedpointAI播客请来了Notion AI团队核心成员,系统讲述了Notion如何在极小团队规模下,快速交付AI Writer、Autofill和Q&A等产品,并在评估、提示工程和组织结构上形成一套独特方法论。
Notion AI的真实构建逻辑:从狗粮测试到Q&A的产品方法论
这期RedpointAI播客请来了Notion AI团队核心成员,系统讲述了Notion如何在极小团队规模下,快速交付AI Writer、Autofill和Q&A等产品,并在评估、提示工程和组织结构上形成一套独特方法论。
为什么Notion能这么快把AI“做进产品”
这一期播客最有价值的地方,并不在于Notion用了哪些模型,而在于它如何组织探索。Lonus Lee提到,他加入Notion AI团队时,团队的目标并不是“先定义一个完美的AI产品”,而是尽快把AI能力放进真实工作流中。Notion AI Writer的最初定位很朴素:帮助写作、总结页面、改进语法和风格。但关键在于,它被设计成“人和AI反复协作”的过程,而不是一次性生成结果。
Notion内部非常强调dogfooding,也就是员工高频使用自己做的AI工具。Lonus直言,很多方向并不是通过用户访谈发现的,而是“我们自己被AI原型烦到,才意识到它必须变得更好”。这种先做出“很糟但可用”的内部版本,再被真实使用反复打磨的方式,让团队能在极短时间内判断方向是否值得继续投入。
他用一个形象的说法总结这种节奏:“在hacky的探索和传统PM流程之间来回伸缩。”先极度发散,快速原型;一旦看到信号,再迅速收敛,补上工程质量、评估体系和安全设计。这种循环,是Notion能在众多AI应用中率先落地的关键。
从AI Writer到Autofill:AI如何嵌入结构化工作
如果说AI Writer解决的是“空白页恐惧”,那AI Autofill则是Notion AI向结构化数据迈出的重要一步。Autofill的能力,是自动填充整列数据库字段,比如会议记录、客户访谈、调研表格中的关键信息提取。这类场景对准确性和一致性要求远高于写作,也是Notion选择继续推进的原因。
Lonus提到,Autofill的出现源于一个非常现实的问题:大量团队已经在Notion里用数据库管理工作,但整理信息仍然高度依赖人工。AI的价值不是生成新内容,而是“把已经存在的信息,变成可用的结构”。这也解释了为什么Notion AI的很多功能看起来并不炫酷,却极其高频。
在这里,Notion逐渐形成了一个清晰判断标准:AI是否真正节省了时间,而不是制造新的确认成本。如果用户还需要逐条检查AI填的内容,那产品就是失败的。这种对“真实效率”的苛刻要求,也为后来的Q&A埋下了技术和产品上的伏笔。
Notion Q&A:把RAG真正做成可用产品
Notion Q&A被认为是他们迄今为止最难的一项功能,本质上是在解决大型工作区里的信息查找问题。不同于简单的聊天机器人,Q&A的目标是替代搜索:用户直接提问,系统在整个工作区中检索并生成答案。这背后依赖的是检索增强生成(RAG),即先检索相关文档,再基于文档生成回答。
难点并不在于“能不能回答”,而在于“能不能答对”。Lonus特别提到时间相关问题、边界条件,以及权限和隐私,都是非常棘手的坑。比如,一个问题在不同时间节点可能有不同答案,而AI必须基于最新、且用户有权限访问的内容作答。
为此,Notion内部搭建了一整套评估工具,直接基于结构化的Notion文档进行测试。评估方式覆盖从程序化测试,到人工逐条检查的全光谱流程。Lonus强调:“如果你不能快速、持续地评估正确性,就不可能把Q&A这种产品真正交付给用户。”这也是为什么Notion宁愿慢一点上线,也要先把评估体系打牢。
提示工程、模型合作与团队规模的现实选择
在模型层面,Notion选择与OpenAI和Anthropic合作,并明确表示不会用客户数据训练模型。取而代之的是大量任务级评估和合成数据,用来比较不同模型在具体场景下的表现。Lonus提到,提示工程在这里的一个重要目标,是“跨模型可迁移性”,也就是尽量让同一套指令在不同模型上都能稳定工作。
一个有意思的细节是,多语言和跨语言Q&A被认为是提示工程的试金石。如果一个提示在英语下表现很好,但换语言就崩溃,那说明抽象层级还不够。
团队规模同样出乎很多人意料:整个Notion AI团队只有十几个人,一部分专注模型质量,一部分专注产品集成。关于是否采用“中心AI团队”还是“嵌入式AI工程师”,他们仍在探索。但可以确定的是,小团队迫使他们在方向选择上异常克制,只做最有确定性的事情。
被低估与被高估的AI趋势
在快问快答环节,Lonus抛出了几个耐人寻味的判断。他认为,当前被过度炒作的是上下文窗口长度,很多问题并不是“放不下”,而是“检索和组织方式不对”。相反,一些替代Transformer的架构探索,可能被低估了长期潜力。
谈到最大的意外收获,他提到自己对“通用模型 vs 专用系统”的看法发生了变化。通用模型能力提升极快,但真正优秀的产品,仍然来自对具体任务的深度打磨。他也特别提到对Midjourney、Adept这类实验室风格团队的关注,认为它们在产品与模型协同上提供了不同范式。
总结
这期关于Notion AI的对话,真正有价值的不是某个功能细节,而是一整套可复用的方法论:用狗粮测试发现方向,用严格评估保障质量,用小团队保持克制。它提醒我们,AI产品的竞争,早已从“谁接了更强的模型”,转向“谁更理解真实工作”。对任何想把AI做进产品的人来说,这是一次非常具体、也非常现实的参考。
关键词: Notion AI, 检索增强生成, 提示工程, AI产品方法论, OpenAI
事实核查备注: 视频嘉宾:Lonus Lee(Notion AI团队核心成员);节目:RedpointAI Podcast;AI功能:Notion AI Writer、AI Autofill、Notion Q&A;技术概念:检索增强生成(RAG)、提示工程、Transformer、上下文窗口;合作公司:OpenAI、Anthropic;团队规模:约十几人(dozen people)。