一句话查全公司数据:Dust把Text-to-SQL玩成了“自然语言BI”

AI PM 编辑部 · 2024年12月17日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

在 OpenAI DevDay 的一个并不起眼的社区演讲里,Dust 展示了一件让很多数据团队“后背一凉”的事:不用写 SQL、不用建 Dashboard,只靠一句自然语言,就能跨 Snowflake、Google Sheet、CSV 做复杂分析和可视化。这不是玩具 Demo,而是一整套已经跑在真实业务里的“自然语言 BI”。

一句话查全公司数据:Dust把Text-to-SQL玩成了“自然语言BI”

在 OpenAI DevDay 的一个并不起眼的社区演讲里,Dust 展示了一件让很多数据团队“后背一凉”的事:不用写 SQL、不用建 Dashboard,只靠一句自然语言,就能跨 Snowflake、Google Sheet、CSV 做复杂分析和可视化。这不是玩具 Demo,而是一整套已经跑在真实业务里的“自然语言 BI”。

最反直觉的一幕:SQL 不重要了,连数据源在哪都不重要

演讲一开始,Dust 的解决方案工程师 Alden 就抛出了一个看似普通、实则极具破坏力的 Demo:一句话,让 AI 从 Snowflake 仓库里查数据、算指标、区分 Top 10 workspace,再直接生成 React 图表组件。

真正反直觉的地方不在于“AI 会写 SQL”——这你可能已经见过。而在于:用户完全不需要知道数据在哪、表怎么连、字段叫什么。这些在 Dust 里,被彻底下沉成了系统的“责任”。

更狠的是,后续对话里,他连续追加问题:活跃用户数、最常用的 assistant、再把三张图合成一个带按钮切换的组件。整个过程中,Prompt 里没有塞任何数据点,模型也没有“重算”——数据以 CSV 文件形式被缓存、复用。

一句话总结这个阶段的体验:以前你是在“对数据库下指令”,现在你是在“对公司提问”。

真正的杀招:跨世界数据,一条自然语言就能 JOIN

如果说 Text-to-SQL 已经让数据工程师不安,那接下来的演示,可能会让不少 BI 团队开始认真反思自己的存在价值。

Alden 抛出了一个真实到不能再真实的需求:
- HR 的员工角色在 Google Sheet
- 用户使用数据是 CSV(从 API 导出)
- 问题是:哪些角色最常用 Dust?

在传统体系里,这意味着 ETL、同步、建模、再建一个 Dashboard。而在 Dust 里,他只是提前配置了一个“Query Tables”工具,描述了这两份数据,然后直接问:Top 5 用户的角色是什么?

结果是:模型生成了一条标准 SQL,对两个“本不该在一起”的文件做了 LEFT JOIN,关联键是员工邮箱。不同存储、不同系统、不同语义世界,在这一刻被压平成了‘表’。

这不是魔法,而是一种非常清醒的产品判断:让 LLM 做它最擅长的事——理解意图、生成结构;让系统兜住脏活累活。

架构拆解:为什么这套系统跑得动、也跑得稳

Dust 的底层并不神秘,但组合方式非常“工程脑”。

核心链路可以拆成几步:
1. 所有数据先被“统一成 CSV”。不管你是 Snowflake、Google Sheet 还是本地文件,都会被抽象成表。
2. 系统会自动推断列类型、生成更“对 LLM 友好”的列名,形成所谓的 augmented schema
3. 向模型发送的不只是问题,还有:完整对话历史、增强后的 schema、枚举值、以及每张表的前 16 行样本。
4. 通过 function call(现在可以换成 structured output),模型返回三样东西:Chain of Thought、SQL 查询、以及结果文件的元信息。

最巧妙的一步在执行层:
- 如果是数据仓库(目前 Snowflake),直接执行 SQL。
- 如果是文件,Dust 会在 Rust 里即时拉起一个内存级 SQLite,在模型思考的时间里把所有 CSV 灌进去。

等模型一“想完”,数据库也正好 ready。这种对延迟的精确拿捏,决定了它不是 Demo,而是产品。

从“追 AGI”到“自然语言 BI”,这才是短期真价值

演讲快结束时,Alden 说了一句非常耐人寻味的话:

“所有人都在追 AGI,但我们觉得,自己已经做到了 Natural Language BI。”

这句话的潜台词是:大模型的第一波生产力红利,根本不在‘更聪明’,而在‘更会接脏数据’。

对非技术团队来说,Dust 干掉的是等待:等数据、等报表、等人帮你改一个维度。以前建一个 Dashboard 的时间,现在够你问 50 个问题。

对技术团队来说,它改变的是重心:从‘写 SQL’转向‘定义语义、约束工具、设计数据接口’。

当查询、合并、可视化都能被一句话触发时,真正稀缺的,变成了你该问什么问题

总结

Dust 这场演示真正值得记住的,不是又一个 Text-to-SQL,而是一种范式转移:数据分析从“操作系统”级别,被提升到了“自然语言接口”。如果你在做 AI Agent、企业应用或内部工具,这里有三个行动建议:第一,尽早把数据统一成可被 LLM 消化的“表语义”;第二,把复杂度留给系统,不要留给用户;第三,重新思考 BI 的价值边界——当任何人都能问数据时,洞察本身才是护城河。最后留个问题:当自然语言成为默认分析入口,你现在做的 Dashboard,还有多少存在必要?


关键词: Text-to-SQL, 自然语言BI, AI Agent, 数据仓库, 检索增强生成

事实核查备注: 需要核查:1)视频发布时间为 2024-12-17;2)Dust 当前支持的数据仓库主要是 Snowflake,提到未来支持 Redshift 和 BigQuery;3)文件场景下使用的是内存级 SQLite,由 Rust 实现;4)图表组件使用 Recharts,计划引入 D3.js;5)演讲者身份为 Dust 的 Solutions Engineer Alden。