正在加载视频...
视频章节
这期对话中,MongoDB 产品与增长负责人 Sahir Azam 从“概率型软件”的视角出发,讨论了向量数据库为何成为 AI 时代的数据结构核心,以及数据库层必须发生的关键转变。
当软件变得概率化:向量数据库如何重塑AI的数据底座
这期对话中,MongoDB 产品与增长负责人 Sahir Azam 从“概率型软件”的视角出发,讨论了向量数据库为何成为 AI 时代的数据结构核心,以及数据库层必须发生的关键转变。
为什么AI时代首先要重想“数据库这一层”
这一轮生成式 AI 的变化,并不只是模型能力的提升,而是整个应用形态的改变。主持人在一开始就抛出一个“大图景问题”:当应用变成概率型系统,数据库层会发生什么变化?Sahir Azam 的判断很直接——数据库不再只是被动存储数据的“底座”,而是直接参与 AI 系统的质量和体验。
他指出,在传统确定性软件中,功能是否正确往往是非黑即白;但在 AI 应用里,输出是概率性的,“衡量质量的方式,集中在最后一公里——你如何把系统推到 99.99% 的可靠度”。这句话点出了一个现实难题:模型本身并不足以交付稳定体验,数据层必须承担更多责任。
这也是为什么数据库的设计目标正在改变。过去强调的是一致性、事务和结构化查询,而现在,数据库需要理解“相似性”“相关性”和“不确定性”,并为上层 AI 应用提供可控、可调优的支撑。
向量数据库的机会,来自应用“形状”的改变
当话题转向向量数据库时,Sahir 并没有把重点放在某个具体产品,而是反复强调“应用的形状正在变化”。所谓向量,本质上是把文本、图像或其他非结构化数据映射为高维数学表示,用于相似度搜索,这是 AI 检索和推理的基础。
他认为,真正的机会并不只是“加一个向量索引”,而在于:现在的 AI 应用天然是由检索、推理、生成组合而成的,这迫使数据库必须同时处理结构化数据和向量数据。如果数据库仍然被当作单纯的记忆层,就无法支撑这种新形态。
在对话中有一个关键转折点:主持人追问,“你是在说,数据库不仅是 memory?”Sahir 的回答明确表示,这是一个“非常不同的方向”。数据库正在从幕后走向台前,直接影响模型能否给出高质量、可解释、可迭代的结果。
向量 vs 图:不是技术之争,而是体验之争
在“向量数据库和图数据库如何取舍”的问题上,讨论并没有陷入教科书式对比。相反,Sahir 把视角放在终端用户和开发者体验上:最终重要的不是内部数据结构有多优雅,而是应用是否更容易构建、调试和扩展。
他提到一个现实考量:随着抽象层级不断提高,数据库需要屏蔽更多复杂性,让“平均水平的应用开发者”也能构建 AI 应用。这并不意味着底层技术变简单了,而是系统需要在性能、抽象和可控性之间找到新的平衡。
在这里,性能要求被单独点名。AI 应用对延迟和一致性的容忍度与传统系统不同,这直接影响数据库在索引、查询路径和资源调度上的设计选择。这也是向量与图并存、而非互相取代的重要原因。
为概率型系统负责:最后一公里的难题
整场对话中反复出现的关键词是“Last Mile”。在概率型软件世界里,模型给出 90% 正确答案并不稀奇,难的是如何系统性地逼近 99.99%。Sahir 直言,这是他们当前“非常专注的问题空间”。
主持人一度从“魔鬼代言人”的角度发问:这些承诺是否过于乐观?Sahir 的回应相对克制,他承认挑战依然巨大,但也强调已经看到“令人鼓舞的迹象”。这种态度本身透露出一种成熟视角:数据库并不是银弹,但它是少数可以被工程化、被持续改进的变量。
在这个背景下,数据库不只是存储事实,更是帮助系统评估、回溯和改进输出质量的关键基础设施。
坐在“最有意思的位置”看未来
对话后段,主持人评价 Sahir 所处的位置“可能是整个 AI 栈中最有意思的座位之一”。原因很简单:数据库位于模型和应用之间,既要理解前沿 AI 的需求,又要面对全球规模客户的真实约束。
在快速问答之前,Sahir 回顾了自己横跨产品和增长的背景,这让他对“如何把复杂技术整合并推向大规模使用”格外敏感。这不是纯研究视角,而是工程与商业交汇处的观察。
当被问到 AI 世界中最敬佩的人时,对话在轻松的气氛中收尾,但前面的讨论已经清楚传达一个信号:AI 的下一步突破,很可能发生在数据结构和系统设计层,而不只是模型参数的增长。
总结
这期访谈最大的价值,不在于给出某种“正确架构”,而在于提醒我们:当软件变成概率型系统,数据库的角色必须被重新定义。向量数据库只是表象,真正的变革是数据层开始为 AI 的质量、性能和可用性负责。对开发者而言,理解这一转变,可能比追逐下一个模型版本更重要。
关键词: 向量数据库, 概率型软件, AI数据层, MongoDB, 应用架构
事实核查备注: Sahir Azam(MongoDB 产品与增长负责人);节目:Sequoia AI Ascent;核心话题:向量数据库、概率型软件、Last Mile 质量;原话引用包括“the measure of quality is about that kind of Last Mile”“that is a problem space we're very focused on right now”“the database is not only the memory”。