一句话查全公司数据：Dust把Text-to-SQL玩成了“自然语言BI”

AI PM 编辑部 · 2024年12月17日 · 2 阅读 · AI/人工智能

Token AI应用大语言模型 AI Agent 向量数据库通用人工智能检索增强生成 Google

正在加载视频...

视频章节

在 OpenAI DevDay 的一个并不起眼的社区演讲里，Dust 展示了一件让很多数据团队“后背一凉”的事：不用写 SQL、不用建 Dashboard，只靠一句自然语言，就能跨 Snowflake、Google Sheet、CSV 做复杂分析和可视化。这不是玩具 Demo，而是一整套已经跑在真实业务里的“自然语言 BI”。

一句话查全公司数据：Dust把Text-to-SQL玩成了“自然语言BI”

在 OpenAI DevDay 的一个并不起眼的社区演讲里，Dust 展示了一件让很多数据团队“后背一凉”的事：不用写 SQL、不用建 Dashboard，只靠一句自然语言，就能跨 Snowflake、Google Sheet、CSV 做复杂分析和可视化。这不是玩具 Demo，而是一整套已经跑在真实业务里的“自然语言 BI”。

最反直觉的一幕：SQL 不重要了，连数据源在哪都不重要

演讲一开始，Dust 的解决方案工程师 Alden 就抛出了一个看似普通、实则极具破坏力的 Demo：一句话，让 AI 从 Snowflake 仓库里查数据、算指标、区分 Top 10 workspace，再直接生成 React 图表组件。

真正反直觉的地方不在于“AI 会写 SQL”——这你可能已经见过。而在于：用户完全不需要知道数据在哪、表怎么连、字段叫什么。这些在 Dust 里，被彻底下沉成了系统的“责任”。

更狠的是，后续对话里，他连续追加问题：活跃用户数、最常用的 assistant、再把三张图合成一个带按钮切换的组件。整个过程中，Prompt 里没有塞任何数据点，模型也没有“重算”——数据以 CSV 文件形式被缓存、复用。

一句话总结这个阶段的体验：以前你是在“对数据库下指令”，现在你是在“对公司提问”。

真正的杀招：跨世界数据，一条自然语言就能 JOIN

如果说 Text-to-SQL 已经让数据工程师不安，那接下来的演示，可能会让不少 BI 团队开始认真反思自己的存在价值。

Alden 抛出了一个真实到不能再真实的需求：
- HR 的员工角色在 Google Sheet
- 用户使用数据是 CSV（从 API 导出）
- 问题是：哪些角色最常用 Dust？

在传统体系里，这意味着 ETL、同步、建模、再建一个 Dashboard。而在 Dust 里，他只是提前配置了一个“Query Tables”工具，描述了这两份数据，然后直接问：Top 5 用户的角色是什么？

结果是：模型生成了一条标准 SQL，对两个“本不该在一起”的文件做了 LEFT JOIN，关联键是员工邮箱。不同存储、不同系统、不同语义世界，在这一刻被压平成了‘表’。

这不是魔法，而是一种非常清醒的产品判断：让 LLM 做它最擅长的事——理解意图、生成结构；让系统兜住脏活累活。

架构拆解：为什么这套系统跑得动、也跑得稳

Dust 的底层并不神秘，但组合方式非常“工程脑”。

核心链路可以拆成几步：
1. 所有数据先被“统一成 CSV”。不管你是 Snowflake、Google Sheet 还是本地文件，都会被抽象成表。
2. 系统会自动推断列类型、生成更“对 LLM 友好”的列名，形成所谓的 augmented schema。
3. 向模型发送的不只是问题，还有：完整对话历史、增强后的 schema、枚举值、以及每张表的前 16 行样本。
4. 通过 function call（现在可以换成 structured output），模型返回三样东西：Chain of Thought、SQL 查询、以及结果文件的元信息。

最巧妙的一步在执行层：
- 如果是数据仓库（目前 Snowflake），直接执行 SQL。
- 如果是文件，Dust 会在 Rust 里即时拉起一个内存级 SQLite，在模型思考的时间里把所有 CSV 灌进去。

等模型一“想完”，数据库也正好 ready。这种对延迟的精确拿捏，决定了它不是 Demo，而是产品。

从“追 AGI”到“自然语言 BI”，这才是短期真价值

演讲快结束时，Alden 说了一句非常耐人寻味的话：

“所有人都在追 AGI，但我们觉得，自己已经做到了 Natural Language BI。”

这句话的潜台词是：大模型的第一波生产力红利，根本不在‘更聪明’，而在‘更会接脏数据’。

对非技术团队来说，Dust 干掉的是等待：等数据、等报表、等人帮你改一个维度。以前建一个 Dashboard 的时间，现在够你问 50 个问题。

对技术团队来说，它改变的是重心：从‘写 SQL’转向‘定义语义、约束工具、设计数据接口’。

当查询、合并、可视化都能被一句话触发时，真正稀缺的，变成了你该问什么问题。

总结

Dust 这场演示真正值得记住的，不是又一个 Text-to-SQL，而是一种范式转移：数据分析从“操作系统”级别，被提升到了“自然语言接口”。如果你在做 AI Agent、企业应用或内部工具，这里有三个行动建议：第一，尽早把数据统一成可被 LLM 消化的“表语义”；第二，把复杂度留给系统，不要留给用户；第三，重新思考 BI 的价值边界——当任何人都能问数据时，洞察本身才是护城河。最后留个问题：当自然语言成为默认分析入口，你现在做的 Dashboard，还有多少存在必要？

关键词： Text-to-SQL，自然语言BI， AI Agent，数据仓库，检索增强生成

事实核查备注：需要核查：1）视频发布时间为 2024-12-17；2）Dust 当前支持的数据仓库主要是 Snowflake，提到未来支持 Redshift 和 BigQuery；3）文件场景下使用的是内存级 SQLite，由 Rust 实现；4）图表组件使用 Recharts，计划引入 D3.js；5）演讲者身份为 Dust 的 Solutions Engineer Alden。

返回文章列表