一家低调到爆发的公司,如何靠“人类数据”撑起前沿模型

AI PM 编辑部 · 2025年07月24日 · 23 阅读 · AI/人工智能

正在加载视频...

视频章节

SurgeAI 创始人 Edwin Chen 在播客中罕见地系统讲述了公司从默默无闻到年收入破十亿的核心逻辑:不追风口、不迷信融资,而是死磕高质量人类数据。本篇文章提炼了他对模型训练、数据质量、RLHF 以及 AI 对齐的关键洞见。

一家低调到爆发的公司,如何靠“人类数据”撑起前沿模型

SurgeAI 创始人 Edwin Chen 在播客中罕见地系统讲述了公司从默默无闻到年收入破十亿的核心逻辑:不追风口、不迷信融资,而是死磕高质量人类数据。本篇文章提炼了他对模型训练、数据质量、RLHF 以及 AI 对齐的关键洞见。

为什么 Surge 能在没人注意时长成巨头

理解 Surge 的起点很重要,因为它几乎完全反着硅谷主流叙事在走。Edwin Chen 在节目一开始就被主持人点出:这是一家“长期在雷达之下”的公司,但在过去一年里,Surge 的收入已经超过 10 亿美元。这不是靠炒概念,而是源于一个非常早期、甚至当时并不性感的判断——大模型真正的瓶颈不是算力,而是高质量的人类数据。

Edwin 回顾创立 Surge 时的原始假设:在大型科技公司内部,他反复看到模型进展被数据质量拖慢,而不是被模型结构限制。他在节目中直言,Surge 从一开始就“相信高质量人类数据是不可替代的”,并决定围绕这个单点问题构建公司,而不是做一个泛泛的数据外包平台。

这也解释了为什么 Surge 选择自举(bootstrapping),而不是融资扩张。Edwin 对融资文化的态度相当尖锐,他认为过早融资会让团队在没有真正产品之前就被外部验证牵着走。“如果你连客户愿不愿意为你的东西付钱都不知道,钱只会掩盖问题。”在他看来,Surge 能走到今天,恰恰因为它在很长一段时间里只对数据本身负责,而不对叙事负责。

早期招聘的反直觉:为什么 PM 和数据科学家是坏选择

这一节的讨论之所以有价值,是因为 Edwin 直接挑战了大多数创业者默认接受的“最佳实践”。在节目中,他明确表示,在公司最早期,产品经理(PM)和数据科学家往往是“最不该先招的人”。

他的理由并不情绪化,而是来自实际踩坑经验。Surge 在非常早期就意识到,真正稀缺的不是提出问题的人,而是能把问题变成可执行系统的人。PM 擅长对齐需求,但在没有稳定客户和产品边界之前,对齐本身是虚假的;而数据科学家更关注模型与指标,却未必能解决数据生产和质量控制的工程问题。

Edwin 提到,早期 Surge 更需要的是能同时理解系统、工具和人类行为的工程型人才。他在节目中说过一句被主持人反复追问的话:“外部验证是危险的,它会让你过早相信自己是对的。”这也贯穿了他的招聘逻辑——宁愿慢,也不要因为看起来‘专业’而做错决定。

这种对外部认可的警惕,与 Surge 后来在行业中坚持人类评估、反对基准作弊(benchmark hacking)的立场形成了呼应:如果评估体系本身是空的,再漂亮的分数也没有意义。

什么才是真正的高质量数据,而不只是更多数据

当讨论转向产品本身时,Edwin 给出了对“高质量数据”少见的具体解释。Surge 的核心产品,是用于训练和评估前沿模型的人类数据,覆盖编码、偏好标注和模型评估等多个场景。这些数据并不是简单的人工标注,而是被当作一种可以被系统性度量和优化的输入。

为了避免沦为传统 body shop,Surge 构建了大量内部技术,用来衡量不同人类贡献的质量。Edwin 用搜索和内容排序系统作类比:不是所有内容都一样有价值,数据也一样。他强调,真正难的不是“找人”,而是判断哪些人类反馈在长期上能让模型变得更好。

在具体例子中,他提到了诗歌和数学。诗歌任务中,模型很容易通过模仿表面风格来“看起来不错”,但真正高质量的人类反馈来自创造性的偏离;而在数学中,粗糙的数据会让模型学会错误的捷径。这也是他反复强调的一点:“扩展平庸,只会得到一个更大的平庸模型。”

这种对质量的执念,直接影响了 Surge 在 RLHF(人类反馈强化学习)和模型评估上的方法论。

当模型看似超人,人类反馈为什么仍不可替代

在播客后半段,讨论逐渐上升到更宏观的问题:当模型在越来越多基准上超越人类,人类反馈是否还重要?Edwin 的回答非常明确——不仅重要,而且更难被替代。

他指出,纯合成数据和浅层优化在短期内可能有效,但很容易在对齐问题上失败。模型可以在排行榜上取胜,却在真实任务中崩塌。这也是他对当前语言模型排行榜(LM leaderboard)的主要批评:过度优化基准,反而掩盖了模型的真实能力。

在强化学习部分,他谈到构建“丰富 RL 环境”的挑战。Surge 正在尝试模拟完整的专业工作流,而不是简化任务,因为现实世界的复杂性没有上限。他说,人类的创造力在这里不是噪声,而是信号。

谈到竞争格局时,Edwin 保持了少见的冷静。他提及 Meta 与 Scale AI 的合作、对 xAI 的关注,以及前沿模型生态正在变得更加多样化和开放。但无论模型来自哪里,他的判断始终一致:最终的评判标准,仍然是深入、昂贵、但诚实的人类评估。

总结

这期播客真正稀缺的,不是对某个模型的预测,而是一套关于“什么值得被认真对待”的价值排序。Edwin Chen 用 Surge 的经历反复证明:在 AI 时代,最难扩展的恰恰是人类的判断力与创造力。对创业者而言,这是一堂关于耐心与反直觉的课;对技术从业者而言,这是一次对数据、评估和对齐问题的深度提醒。


关键词: SurgeAI, 高质量数据, 人类反馈强化学习, 大语言模型, AI对齐

事实核查备注: Edwin Chen:SurgeAI 创始人兼 CEO;Surge 去年收入超过 10 亿美元;核心产品为用于训练和评估前沿模型的高质量人类数据;涉及技术概念:RLHF、人类评估、强化学习环境、模型基准测试;涉及公司:Meta、Scale AI、xAI。