从语言梦想家到基础模型推手:Percy Liang的关键转折

AI PM 编辑部 · 2023年04月25日 · 10 阅读 · AI/人工智能

正在加载视频...

视频章节

Stanford教授Percy Liang回顾了自己20多年NLP研究生涯,讲述GPT-3如何彻底改变他对机器学习范式的理解,并促使他创立基础模型研究中心与Together AI。本文提炼他对大语言模型、研究范式转变与算力瓶颈的独特洞见。

从语言梦想家到基础模型推手:Percy Liang的关键转折

Stanford教授Percy Liang回顾了自己20多年NLP研究生涯,讲述GPT-3如何彻底改变他对机器学习范式的理解,并促使他创立基础模型研究中心与Together AI。本文提炼他对大语言模型、研究范式转变与算力瓶颈的独特洞见。

一个被语言迷住的学生,走上20年的NLP之路

理解一位研究者的判断,离不开他最初为什么出发。Percy Liang在访谈一开始,就把时间拨回到自己在MIT读本科的年代。那时他偏爱理论,又对语言充满好奇:人类为什么只需要接触零散的语音和文本,就能“在相当无监督的情况下”学会复杂的语法和对世界的理解。

他直言,自己最早的梦想就是“让计算机做同样的事情”。这个看似天真的愿望,后来贯穿了他整个学术生涯。从MIT到伯克利读博,再到斯坦福任教,他始终围绕自然语言处理(NLP)和机器学习展开研究,目标并不是做一个能完成单点任务的系统,而是“真正理解自然语言”的机器。

他回忆早期的工作时提到,当年训练的语言模型主要基于隐马尔可夫模型(HMM),目标是从文本中发现隐藏结构。哪怕模型只能区分“城市名”和“星期几”这样的模式,也足以让当时的他感到兴奋。与今天的大模型相比,这些能力显得原始,但在他看来,这条主线从未中断,只是尺度和方法发生了质变。

正因如此,当大语言模型真正爆发时,他的感受并不是突兀的震撼,而是一种“梦想以意外方式实现了”的复杂心情。

GPT-3带来的震撼:不是能力,而是训练方式

在众多技术节点中,Liang明确指出了一个“非常决定性的时刻”——GPT-3的发布。那是在疫情期间,而真正让他改变研究重心的,并非模型展示出的具体能力,而是背后的方法论。

GPT-3的训练目标极其简单:在海量文本上反复预测下一个词。“就是这么一个非常简单的目标和原则,”他说,但结果却出乎意料。模型不仅能生成流畅文本,还首次大规模展现了“上下文学习”(in-context learning)能力——通过提示和少量示例,模型就能在不重新训练的情况下理解并执行新任务。

他认为,这一刻标志着机器学习范式的转变。过去,研究者需要为问答、翻译、摘要等任务分别设计和训练系统;而现在,大模型更像一个“通用基底”,任务本身开始变得不再那么核心。正如他所说:“任务这个在AI中如此核心的概念,开始逐渐消解。”

这种变化对研究者的冲击是根本性的。它迫使整个领域重新思考:我们到底是在构建一堆工具,还是在培育一种通用能力?正是基于这种判断,Liang在2021年推动成立了斯坦福基础模型研究中心(CRFM)。

基础模型研究中心:透明性、可及性与风险意识

CRFM隶属于斯坦福以人为中心的AI研究院,其使命并不只是“把模型做得更大”。Liang用一句话概括核心目标:提升基础模型的透明性和可及性。

他坦承,当前大型模型逐渐走向“有限访问”是非常自然的结果。原因并不神秘——训练这些模型需要巨额资本和算力,这使得它们更容易集中在少数大公司手中。但他同时强调,这种集中化会带来一系列长期问题:研究复现难度增加、外部监督变弱、以及社会风险难以及时暴露。

因此,中心的研究议题覆盖了多个层面:从模型评估、数据与训练过程的披露,到AI安全与风险研究。他特别提到,中心内部就有人专门研究虚假信息传播和监测问题,试图理解当模型规模继续扩大时,哪些风险会以“涌现行为”的形式出现。

在Liang看来,历史一再证明,技术扩散往往伴随着先集中、再扩散的过程。关键不在于阻止集中,而是提前为未来的开放和治理打好基础。

Together AI与算力瓶颈:基础设施也是研究的一部分

当话题转向Together AI时,讨论自然落到了一个更现实的问题上:算力。Liang解释说,Together创立的前提判断非常直接——算力已经成为基础模型发展的核心瓶颈之一。

在他的视角中,算力并不仅仅是“资源问题”,而是会深刻影响研究方向和创新门槛。如果只有极少数机构负担得起训练和实验,那么很多有价值的想法在出现之前就被扼杀了。Together试图做的,是在计算资源层面提供一种更开放的可能性。

这与他在学术界推动的理念高度一致:基础模型不应只是少数人的特权。无论是通过研究中心,还是通过创业公司,他都在反复探索同一个问题——如何在不可避免的规模化趋势中,保留足够的多样性、透明度和公共性。

这种跨越学术与产业的角色切换,并非为了追逐风口,而是他长期研究逻辑的自然延伸。

总结

Percy Liang的故事并不是一条线性的成功轨迹,而是一个长期愿景在不同技术阶段的不断重塑。从早期HMM语言模型,到GPT-3引发的范式转移,再到对算力和治理的系统性思考,他始终关注“理解”而非单点性能。对读者而言,最大的启发或许在于:真正重要的转折,往往不是某个功能有多强,而是我们如何重新定义问题本身。


关键词: Percy Liang, 基础模型, GPT-3, 大语言模型, Together AI

事实核查备注: Percy Liang:斯坦福大学教授;研究领域为机器学习与自然语言处理。GPT-3:OpenAI于2020年发布的大语言模型,采用大规模自回归训练。隐马尔可夫模型(HMM):早期序列建模方法。CRFM:斯坦福基础模型研究中心,成立于2021年。Together AI:Percy Liang参与创立的公司,聚焦算力与基础设施。