ChatGPT 之后,LLM 还有12道生死难关,这远不是终局

AI PM 编辑部 · 2023年08月08日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

很多人第一次用 ChatGPT 时都有一种错觉:语言智能的问题,好像已经被解决了。但一篇由剑桥、UCL、Meta AI 等机构联合完成的论文却泼了一盆冷水——我们可能才刚刚站在起点。真正的挑战,不是“模型不够大”,而是一整套尚未被驯服的复杂系统问题。

ChatGPT 之后,LLM 还有12道生死难关,这远不是终局

很多人第一次用 ChatGPT 时都有一种错觉:语言智能的问题,好像已经被解决了。但一篇由剑桥、UCL、Meta AI 等机构联合完成的论文却泼了一盆冷水——我们可能才刚刚站在起点。真正的挑战,不是“模型不够大”,而是一整套尚未被驯服的复杂系统问题。

幻觉不是 Bug,而是 LLM 的“原生属性”

如果你觉得大模型最烦人的问题是“会胡说八道”,那你并不孤单。论文把“幻觉”放在了最显眼的位置,而且说得很直白:随着 ChatGPT 这类产品被用于日常问答,模型的事实准确性已经从“学术指标”变成了“产品生死线”。

更关键的是,研究者区分了两类幻觉:一种是内在幻觉,模型生成的内容在逻辑上直接违背了给定材料;另一种是外在幻觉,模型说得头头是道,但你根本无法从提供的来源中验证真假。后者才是真正危险的,因为“流畅性”会掩盖错误。

值得注意的是,当前最主流的解决方案,并不是推翻模型架构重来,而是两条相对“务实”的路线:一是检索增强生成(RAG),给模型喂更可靠的外部资料;二是解码策略优化,让模型在生成时更谨慎。潜台词很清楚:幻觉短期内消不掉,只能被约束、被管理

上下文窗口:能装下,不等于用得好

长上下文几乎是 2023 年最性感的技术卖点之一。Anthropic 宣布 Claude 支持 100K context 时,整个行业都沸腾了。但论文泼了第二盆冷水:能处理长文本,不代表能在长文本里保持智能表现

研究者发现,很多开源模型虽然“技术上”支持更长上下文,但性能会随着长度显著退化。换句话说,模型没有真正“理解”长文档,只是勉强吞了进去。这也是为什么在会议纪要、小说分析、法律或金融文档中,模型经常前后矛盾、重复啰嗦。

论文提到三条正在探索的路径:更高效的注意力机制、长度泛化能力,以及 Transformer 的替代架构。这一段的潜台词很重要:Transformer 并不是终极形态。今天看似稳固的架构,可能只是阶段性最优解。

对齐问题:不仅是技术,更是人类的心理成本

当我们谈论 AI 对齐时,往往只看到算法,却忽略了人。论文系统性地总结了现有路径:一类是“发现问题”,比如评测、红队、可解释性研究;另一类是“修正行为”,包括指令微调、RLHF 等。

但视频中特别点出了一个现实冲击:人类反馈并不“干净”。Anthropic 之所以提出 Constitutional AI,部分原因正是 RLHF 的不可扩展性,以及让标注人员长期接触暴力、色情内容所带来的心理创伤。几天前,《卫报》关于肯尼亚内容审核员的报道,让这个问题从论文走进了现实。

这意味着,对齐不是一个“砸更多人力就能解决”的问题。它逼着行业重新思考:我们到底该把多少脏活,交给人类?

被低估的硬核问题:成本、数据与 Token

如果说前面的问题偏“体验”,那接下来这些更像“物理极限”。首先是预训练成本:单个大模型可能消耗数十万 GPU 小时,烧掉数百万美元,还伴随着巨大的能源消耗。这直接导致一个结果——最前沿的模型,正在被“买出来”

其次是数据集规模失控。数据大到无法人工质检,意味着重复样本、隐私信息、领域配比失衡几乎不可避免。模型学到的偏见,很可能不是算法问题,而是数据现实的映射。

最后是一个常被忽视、但极其基础的问题:Tokenizer。不同语言需要的 token 数差异巨大,这不仅影响性能,还会直接影响 API 定价的公平性。技术选择,开始变成政治和商业问题。

总结

这篇 72 页的论文,真正想传达的不是“LLM 有多少问题”,而是一个更冷静的判断:我们距离“完成态”的大语言模型,还差得很远。对从业者来说,理解这些限制,能帮你更现实地做产品决策;对普通使用者和政策制定者来说,这些问题决定了 AI 应该被用在什么地方、不该被用在什么地方。

一个值得反复咀嚼的 takeaway 是:未来的竞争,很可能不只是“谁的模型更大”,而是谁能在幻觉、对齐、成本和长期可持续性之间,找到更好的平衡点。下一个突破,未必来自 scaling,而可能来自我们今天还没完全重视的这些“麻烦”。


关键词: 大语言模型, 幻觉, 上下文窗口, AI对齐, 模型训练

事实核查备注: 需要核查:论文标题《Challenges and Applications of Large Language Models》及发布时间;Anthropic 于 2023 年 5 月宣布 Claude 支持 100K context;《卫报》关于肯尼亚内容审核员的报道时间与表述;Create AI Act 2023 的正式名称与内容描述