从AI宠物到开源中枢:Hugging Face的意外崛起逻辑

AI PM 编辑部 · 2023年05月19日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

Hugging Face 并非一开始就要做“AI 的 GitHub”。从一次展会上的偶遇、一个无聊的 AI 助手想法,到押注开源 Transformer,这家公司走出了一条高度非线性的路径。本文还原 Clem Delangue 的真实叙述,讲清 Hugging Face 为什么能成为开源 AI 的核心基础设施。

从AI宠物到开源中枢:Hugging Face的意外崛起逻辑

Hugging Face 并非一开始就要做“AI 的 GitHub”。从一次展会上的偶遇、一个无聊的 AI 助手想法,到押注开源 Transformer,这家公司走出了一条高度非线性的路径。本文还原 Clem Delangue 的真实叙述,讲清 Hugging Face 为什么能成为开源 AI 的核心基础设施。

一次展会上的偶遇,如何把他拉进机器学习世界

理解 Hugging Face 的今天,必须从 Clem Delangue 个人经历中的一个小插曲讲起——因为它几乎决定了他后来的全部方向。

在创立 Hugging Face 之前,Clem 并不是学术意义上的 AI 研究者。他在法国长大,早年在 eBay 上经营一家电子产品店,做到“法国最大的卖家之一”,甚至因此获得了 eBay 的实习机会。听起来像是标准的电商创业故事,但转折发生在一次并不愉快的贸易展会上。

当时 PayPal 仍属于 eBay,展台前挤满了因账户被冻结而愤怒的用户,Clem 回忆那是“最糟糕的工作体验之一”。正是在这样的背景下,他偶然遇到了一位戴着圆框眼镜的工程师,对方直言不讳地告诉他:eBay 依赖条形码扫描的方式很快会被淘汰,“你们很快连条形码都不需要了,机器会直接识别物体本身。”

Clem 当时并没有太当回事,甚至觉得对方有点“疯狂”。但当天晚上,他去查了资料,发现这位工程师毕业于法国顶尖工程院校,正在做计算机视觉创业公司。结果是,他离开了 eBay,加入这家初创公司,正式转向机器学习领域。

回顾这段经历,他感慨道:“一个非常小的偶遇,真的可以彻底改变你的人生轨迹。”这不是创业神话里的宏大叙事,而是一个高度偶然、却极具现实感的起点,也为 Hugging Face 之后一连串“非计划性转向”埋下了伏笔。

Hugging Face 最初不是平台,而是一个“AI 宠物”

很多人今天提到 Hugging Face,脑海里浮现的是模型仓库、Transformers、Diffusers,但 Clem 强调:这家公司一开始完全不是这个方向。

他和两位联合创始人 Julia 和 Thomas 都对 AI 充满热情,但他们给自己的第一个约束条件很简单——“既要有科学挑战,又要足够有趣”。在他们看来,当时的语音助手 Alexa 和 Siri 过于无聊,只会查天气、设提醒,完全不像科幻电影里的 AI。

于是,他们决定做一个“AI Tamagotchi”,一个可以聊天、陪伴的 AI 朋友。Clem 直言,这个产品形态“其实和今天很多人使用 ChatGPT 的方式非常接近”。他们整整做了将近三年,积累了相当可观的用户规模——用户和聊天机器人之间“交换了数十亿条消息”。

真正的转折发生在三年后、种子轮融资之后。团队一直有开源习惯,把部分内部技术开放出来。随着 Transformer 架构开始真正奏效,特别是 BERT 模型获得关注后,他们突然发现:使用 Hugging Face 开源工具的人数开始“爆炸式增长”。

起初只是 Thomas 一个人维护,随后变成几个人,最后整个团队都被吸引进去。Clem 说,这是一个“非常渐进的过程”,但信号极其明确——大家对开源模型工具的热情,远远超过对原本聊天产品的兴趣。这直接促成了 Hugging Face 把公司重心彻底转向开源模型生态,并据此完成了 A 轮融资。

30%-40%探索比例:Hugging Face 的转向方法论

Hugging Face 的转型并非拍脑袋决策,Clem 给出了一个清晰的方法论,这对很多创业者尤其有启发意义。

他认为,创业公司最容易犯的错误,恰恰出现在“转向”这件事上:在找到产品市场匹配之前,尝试过多方向,每周都在变;而一旦找到 PMF,又彻底停止实验,陷入“局部最优”。

他们给自己的答案是:长期保持探索与执行的比例平衡。Clem 明确提到一个数字——公司“至少 30% 到 40% 的精力”必须投入到探索新方向中。这不是业余项目,而是被正式保护的时间和资源。

Hugging Face 的 Spaces 功能正是典型案例。它最初只是某位工程师的个人实验,目标是让机器学习模型可以被快速演示。一步步发展下来,这个功能在一年内增长到超过 50,000 个机器学习 Demo,最终成为公司级的重要产品。

同样重要的是,他们把“社区互动”视为每个人的职责。公司没有专门的社区经理或公关团队,所有工程师都被要求直接与用户交流。甚至官方 Twitter 账号,整个团队都可以使用。这种高风险做法,在 Clem 看来反而建立了高度真实的信任关系,“人们知道他们是在和真正的构建者对话”。

开源与闭源之争:这不是单行道的竞赛

在大模型时代,一个绕不开的问题是:随着模型规模和训练成本飙升,最先进的能力是否必然被封闭在少数实验室中?Clem 的回答非常冷静。

他不认同“开源必然胜利”或“一家模型统治一切”的叙事。“现实是,永远都会同时存在开源和闭源两种路径。”在某些阶段,专有模型可能在文本生成上领先,比如 ChatGPT;而在另一些领域,开源反而更快,例如 Stable Diffusion 在图像生成上的突破。

他给出了一个关键数据:截至当时,Hugging Face 上已经有超过 25 万个模型,由近 15,000 家公司构建。“如果真的只有一个最好的模型,这些公司根本不会存在。”更重要的是,针对具体任务的专用模型往往“更便宜、更快,而且更准确”。

这种观点也解释了他为什么如此重视像 BLOOM 这样的项目。BLOOM 是一个完全开源的大语言模型,由上千名研究者、200 多家组织协作完成,所有讨论和决策都公开进行。在 Clem 看来,这不仅是技术实验,更是对抗算力和权力集中、减少偏见的一种现实路径。

“如果把开源从这个循环中移除,”他说,“我们今天的进展可能会倒退几十年。”

总结

Hugging Face 的故事并不符合传统创业模板:它不是精准押注,而是在持续探索中被“拉向”真正重要的方向。无论是从 AI 聊天宠物转向开源模型,还是在开源与商业之间寻找平衡,Clem Delangue 展示了一种高度工程化、却又尊重偶然性的创业哲学。对读者而言,最大的启发或许在于:在快速变化的技术浪潮中,真正的优势来自保持开放、持续实验,以及让社区成为产品的一部分,而不是营销对象。


关键词: Hugging Face, 开源模型, Transformer, 大语言模型, AI创业

事实核查备注: 人物:Clem Delangue(Hugging Face 联合创始人兼 CEO);公司:Hugging Face;关键技术:Transformer、BERT、RLHF、Stable Diffusion;关键项目:BLOOM;关键数据:Hugging Face 平台超过25万个模型,约1.5万家公司;Spaces 超过50,000个 Demo;探索比例30%-40%;起初产品为 AI 聊天/Tamagotchi;早期分发渠道为 Twitter。