从语言梦想家到基础模型推手：Percy Liang的关键转折

AI PM 编辑部 · 2023年04月25日 · 10 阅读 · AI/人工智能

正在加载视频...

视频章节

Stanford教授Percy Liang回顾了自己20多年NLP研究生涯，讲述GPT-3如何彻底改变他对机器学习范式的理解，并促使他创立基础模型研究中心与Together AI。本文提炼他对大语言模型、研究范式转变与算力瓶颈的独特洞见。

从语言梦想家到基础模型推手：Percy Liang的关键转折

Stanford教授Percy Liang回顾了自己20多年NLP研究生涯，讲述GPT-3如何彻底改变他对机器学习范式的理解，并促使他创立基础模型研究中心与Together AI。本文提炼他对大语言模型、研究范式转变与算力瓶颈的独特洞见。

一个被语言迷住的学生，走上20年的NLP之路

理解一位研究者的判断，离不开他最初为什么出发。Percy Liang在访谈一开始，就把时间拨回到自己在MIT读本科的年代。那时他偏爱理论，又对语言充满好奇：人类为什么只需要接触零散的语音和文本，就能“在相当无监督的情况下”学会复杂的语法和对世界的理解。

他直言，自己最早的梦想就是“让计算机做同样的事情”。这个看似天真的愿望，后来贯穿了他整个学术生涯。从MIT到伯克利读博，再到斯坦福任教，他始终围绕自然语言处理（NLP）和机器学习展开研究，目标并不是做一个能完成单点任务的系统，而是“真正理解自然语言”的机器。

他回忆早期的工作时提到，当年训练的语言模型主要基于隐马尔可夫模型（HMM），目标是从文本中发现隐藏结构。哪怕模型只能区分“城市名”和“星期几”这样的模式，也足以让当时的他感到兴奋。与今天的大模型相比，这些能力显得原始，但在他看来，这条主线从未中断，只是尺度和方法发生了质变。

正因如此，当大语言模型真正爆发时，他的感受并不是突兀的震撼，而是一种“梦想以意外方式实现了”的复杂心情。

GPT-3带来的震撼：不是能力，而是训练方式

在众多技术节点中，Liang明确指出了一个“非常决定性的时刻”——GPT-3的发布。那是在疫情期间，而真正让他改变研究重心的，并非模型展示出的具体能力，而是背后的方法论。

GPT-3的训练目标极其简单：在海量文本上反复预测下一个词。“就是这么一个非常简单的目标和原则，”他说，但结果却出乎意料。模型不仅能生成流畅文本，还首次大规模展现了“上下文学习”（in-context learning）能力——通过提示和少量示例，模型就能在不重新训练的情况下理解并执行新任务。

他认为，这一刻标志着机器学习范式的转变。过去，研究者需要为问答、翻译、摘要等任务分别设计和训练系统；而现在，大模型更像一个“通用基底”，任务本身开始变得不再那么核心。正如他所说：“任务这个在AI中如此核心的概念，开始逐渐消解。”

这种变化对研究者的冲击是根本性的。它迫使整个领域重新思考：我们到底是在构建一堆工具，还是在培育一种通用能力？正是基于这种判断，Liang在2021年推动成立了斯坦福基础模型研究中心（CRFM）。

基础模型研究中心：透明性、可及性与风险意识

CRFM隶属于斯坦福以人为中心的AI研究院，其使命并不只是“把模型做得更大”。Liang用一句话概括核心目标：提升基础模型的透明性和可及性。

他坦承，当前大型模型逐渐走向“有限访问”是非常自然的结果。原因并不神秘——训练这些模型需要巨额资本和算力，这使得它们更容易集中在少数大公司手中。但他同时强调，这种集中化会带来一系列长期问题：研究复现难度增加、外部监督变弱、以及社会风险难以及时暴露。

因此，中心的研究议题覆盖了多个层面：从模型评估、数据与训练过程的披露，到AI安全与风险研究。他特别提到，中心内部就有人专门研究虚假信息传播和监测问题，试图理解当模型规模继续扩大时，哪些风险会以“涌现行为”的形式出现。

在Liang看来，历史一再证明，技术扩散往往伴随着先集中、再扩散的过程。关键不在于阻止集中，而是提前为未来的开放和治理打好基础。

Together AI与算力瓶颈：基础设施也是研究的一部分

当话题转向Together AI时，讨论自然落到了一个更现实的问题上：算力。Liang解释说，Together创立的前提判断非常直接——算力已经成为基础模型发展的核心瓶颈之一。

在他的视角中，算力并不仅仅是“资源问题”，而是会深刻影响研究方向和创新门槛。如果只有极少数机构负担得起训练和实验，那么很多有价值的想法在出现之前就被扼杀了。Together试图做的，是在计算资源层面提供一种更开放的可能性。

这与他在学术界推动的理念高度一致：基础模型不应只是少数人的特权。无论是通过研究中心，还是通过创业公司，他都在反复探索同一个问题——如何在不可避免的规模化趋势中，保留足够的多样性、透明度和公共性。

这种跨越学术与产业的角色切换，并非为了追逐风口，而是他长期研究逻辑的自然延伸。

总结

Percy Liang的故事并不是一条线性的成功轨迹，而是一个长期愿景在不同技术阶段的不断重塑。从早期HMM语言模型，到GPT-3引发的范式转移，再到对算力和治理的系统性思考，他始终关注“理解”而非单点性能。对读者而言，最大的启发或许在于：真正重要的转折，往往不是某个功能有多强，而是我们如何重新定义问题本身。

关键词： Percy Liang，基础模型， GPT-3，大语言模型， Together AI

事实核查备注： Percy Liang：斯坦福大学教授；研究领域为机器学习与自然语言处理。GPT-3：OpenAI于2020年发布的大语言模型，采用大规模自回归训练。隐马尔可夫模型（HMM）：早期序列建模方法。CRFM：斯坦福基础模型研究中心，成立于2021年。Together AI：Percy Liang参与创立的公司，聚焦算力与基础设施。

返回文章列表