一句话查全公司数据:Dust把Text-to-SQL玩成了“自然语言BI”
正在加载视频...
视频章节
在 OpenAI DevDay 的一个并不起眼的社区演讲里,Dust 展示了一件让很多数据团队“后背一凉”的事:不用写 SQL、不用建 Dashboard,只靠一句自然语言,就能跨 Snowflake、Google Sheet、CSV 做复杂分析和可视化。这不是玩具 Demo,而是一整套已经跑在真实业务里的“自然语言 BI”。
一句话查全公司数据:Dust把Text-to-SQL玩成了“自然语言BI”
在 OpenAI DevDay 的一个并不起眼的社区演讲里,Dust 展示了一件让很多数据团队“后背一凉”的事:不用写 SQL、不用建 Dashboard,只靠一句自然语言,就能跨 Snowflake、Google Sheet、CSV 做复杂分析和可视化。这不是玩具 Demo,而是一整套已经跑在真实业务里的“自然语言 BI”。
最反直觉的一幕:SQL 不重要了,连数据源在哪都不重要
演讲一开始,Dust 的解决方案工程师 Alden 就抛出了一个看似普通、实则极具破坏力的 Demo:一句话,让 AI 从 Snowflake 仓库里查数据、算指标、区分 Top 10 workspace,再直接生成 React 图表组件。
真正反直觉的地方不在于“AI 会写 SQL”——这你可能已经见过。而在于:用户完全不需要知道数据在哪、表怎么连、字段叫什么。这些在 Dust 里,被彻底下沉成了系统的“责任”。
更狠的是,后续对话里,他连续追加问题:活跃用户数、最常用的 assistant、再把三张图合成一个带按钮切换的组件。整个过程中,Prompt 里没有塞任何数据点,模型也没有“重算”——数据以 CSV 文件形式被缓存、复用。
一句话总结这个阶段的体验:以前你是在“对数据库下指令”,现在你是在“对公司提问”。
真正的杀招:跨世界数据,一条自然语言就能 JOIN
如果说 Text-to-SQL 已经让数据工程师不安,那接下来的演示,可能会让不少 BI 团队开始认真反思自己的存在价值。
Alden 抛出了一个真实到不能再真实的需求:
- HR 的员工角色在 Google Sheet
- 用户使用数据是 CSV(从 API 导出)
- 问题是:哪些角色最常用 Dust?
在传统体系里,这意味着 ETL、同步、建模、再建一个 Dashboard。而在 Dust 里,他只是提前配置了一个“Query Tables”工具,描述了这两份数据,然后直接问:Top 5 用户的角色是什么?
结果是:模型生成了一条标准 SQL,对两个“本不该在一起”的文件做了 LEFT JOIN,关联键是员工邮箱。不同存储、不同系统、不同语义世界,在这一刻被压平成了‘表’。
这不是魔法,而是一种非常清醒的产品判断:让 LLM 做它最擅长的事——理解意图、生成结构;让系统兜住脏活累活。
架构拆解:为什么这套系统跑得动、也跑得稳
Dust 的底层并不神秘,但组合方式非常“工程脑”。
核心链路可以拆成几步:
1. 所有数据先被“统一成 CSV”。不管你是 Snowflake、Google Sheet 还是本地文件,都会被抽象成表。
2. 系统会自动推断列类型、生成更“对 LLM 友好”的列名,形成所谓的 augmented schema。
3. 向模型发送的不只是问题,还有:完整对话历史、增强后的 schema、枚举值、以及每张表的前 16 行样本。
4. 通过 function call(现在可以换成 structured output),模型返回三样东西:Chain of Thought、SQL 查询、以及结果文件的元信息。
最巧妙的一步在执行层:
- 如果是数据仓库(目前 Snowflake),直接执行 SQL。
- 如果是文件,Dust 会在 Rust 里即时拉起一个内存级 SQLite,在模型思考的时间里把所有 CSV 灌进去。
等模型一“想完”,数据库也正好 ready。这种对延迟的精确拿捏,决定了它不是 Demo,而是产品。
从“追 AGI”到“自然语言 BI”,这才是短期真价值
演讲快结束时,Alden 说了一句非常耐人寻味的话:
“所有人都在追 AGI,但我们觉得,自己已经做到了 Natural Language BI。”
这句话的潜台词是:大模型的第一波生产力红利,根本不在‘更聪明’,而在‘更会接脏数据’。
对非技术团队来说,Dust 干掉的是等待:等数据、等报表、等人帮你改一个维度。以前建一个 Dashboard 的时间,现在够你问 50 个问题。
对技术团队来说,它改变的是重心:从‘写 SQL’转向‘定义语义、约束工具、设计数据接口’。
当查询、合并、可视化都能被一句话触发时,真正稀缺的,变成了你该问什么问题。
总结
Dust 这场演示真正值得记住的,不是又一个 Text-to-SQL,而是一种范式转移:数据分析从“操作系统”级别,被提升到了“自然语言接口”。如果你在做 AI Agent、企业应用或内部工具,这里有三个行动建议:第一,尽早把数据统一成可被 LLM 消化的“表语义”;第二,把复杂度留给系统,不要留给用户;第三,重新思考 BI 的价值边界——当任何人都能问数据时,洞察本身才是护城河。最后留个问题:当自然语言成为默认分析入口,你现在做的 Dashboard,还有多少存在必要?
关键词: Text-to-SQL, 自然语言BI, AI Agent, 数据仓库, 检索增强生成
事实核查备注: 需要核查:1)视频发布时间为 2024-12-17;2)Dust 当前支持的数据仓库主要是 Snowflake,提到未来支持 Redshift 和 BigQuery;3)文件场景下使用的是内存级 SQLite,由 Rust 实现;4)图表组件使用 Recharts,计划引入 D3.js;5)演讲者身份为 Dust 的 Solutions Engineer Alden。