ChatGPT 之后，LLM 还有12道生死难关，这远不是终局

AI PM 编辑部 · 2023年08月08日 · 2 阅读 · AI/人工智能

预训练微调 AI对齐大语言模型检索增强生成 Transformer 注意力机制 Token 开源模型生成式AI

正在加载视频...

视频章节

很多人第一次用 ChatGPT 时都有一种错觉：语言智能的问题，好像已经被解决了。但一篇由剑桥、UCL、Meta AI 等机构联合完成的论文却泼了一盆冷水——我们可能才刚刚站在起点。真正的挑战，不是“模型不够大”，而是一整套尚未被驯服的复杂系统问题。

ChatGPT 之后，LLM 还有12道生死难关，这远不是终局

很多人第一次用 ChatGPT 时都有一种错觉：语言智能的问题，好像已经被解决了。但一篇由剑桥、UCL、Meta AI 等机构联合完成的论文却泼了一盆冷水——我们可能才刚刚站在起点。真正的挑战，不是“模型不够大”，而是一整套尚未被驯服的复杂系统问题。

幻觉不是 Bug，而是 LLM 的“原生属性”

如果你觉得大模型最烦人的问题是“会胡说八道”，那你并不孤单。论文把“幻觉”放在了最显眼的位置，而且说得很直白：随着 ChatGPT 这类产品被用于日常问答，模型的事实准确性已经从“学术指标”变成了“产品生死线”。

更关键的是，研究者区分了两类幻觉：一种是内在幻觉，模型生成的内容在逻辑上直接违背了给定材料；另一种是外在幻觉，模型说得头头是道，但你根本无法从提供的来源中验证真假。后者才是真正危险的，因为“流畅性”会掩盖错误。

值得注意的是，当前最主流的解决方案，并不是推翻模型架构重来，而是两条相对“务实”的路线：一是检索增强生成（RAG），给模型喂更可靠的外部资料；二是解码策略优化，让模型在生成时更谨慎。潜台词很清楚：幻觉短期内消不掉，只能被约束、被管理。

上下文窗口：能装下，不等于用得好

长上下文几乎是 2023 年最性感的技术卖点之一。Anthropic 宣布 Claude 支持 100K context 时，整个行业都沸腾了。但论文泼了第二盆冷水：能处理长文本，不代表能在长文本里保持智能表现。

研究者发现，很多开源模型虽然“技术上”支持更长上下文，但性能会随着长度显著退化。换句话说，模型没有真正“理解”长文档，只是勉强吞了进去。这也是为什么在会议纪要、小说分析、法律或金融文档中，模型经常前后矛盾、重复啰嗦。

论文提到三条正在探索的路径：更高效的注意力机制、长度泛化能力，以及 Transformer 的替代架构。这一段的潜台词很重要：Transformer 并不是终极形态。今天看似稳固的架构，可能只是阶段性最优解。

对齐问题：不仅是技术，更是人类的心理成本

当我们谈论 AI 对齐时，往往只看到算法，却忽略了人。论文系统性地总结了现有路径：一类是“发现问题”，比如评测、红队、可解释性研究；另一类是“修正行为”，包括指令微调、RLHF 等。

但视频中特别点出了一个现实冲击：人类反馈并不“干净”。Anthropic 之所以提出 Constitutional AI，部分原因正是 RLHF 的不可扩展性，以及让标注人员长期接触暴力、色情内容所带来的心理创伤。几天前，《卫报》关于肯尼亚内容审核员的报道，让这个问题从论文走进了现实。

这意味着，对齐不是一个“砸更多人力就能解决”的问题。它逼着行业重新思考：我们到底该把多少脏活，交给人类？

被低估的硬核问题：成本、数据与 Token

如果说前面的问题偏“体验”，那接下来这些更像“物理极限”。首先是预训练成本：单个大模型可能消耗数十万 GPU 小时，烧掉数百万美元，还伴随着巨大的能源消耗。这直接导致一个结果——最前沿的模型，正在被“买出来”。

其次是数据集规模失控。数据大到无法人工质检，意味着重复样本、隐私信息、领域配比失衡几乎不可避免。模型学到的偏见，很可能不是算法问题，而是数据现实的映射。

最后是一个常被忽视、但极其基础的问题：Tokenizer。不同语言需要的 token 数差异巨大，这不仅影响性能，还会直接影响 API 定价的公平性。技术选择，开始变成政治和商业问题。

总结

这篇 72 页的论文，真正想传达的不是“LLM 有多少问题”，而是一个更冷静的判断：我们距离“完成态”的大语言模型，还差得很远。对从业者来说，理解这些限制，能帮你更现实地做产品决策；对普通使用者和政策制定者来说，这些问题决定了 AI 应该被用在什么地方、不该被用在什么地方。

一个值得反复咀嚼的 takeaway 是：未来的竞争，很可能不只是“谁的模型更大”，而是谁能在幻觉、对齐、成本和长期可持续性之间，找到更好的平衡点。下一个突破，未必来自 scaling，而可能来自我们今天还没完全重视的这些“麻烦”。

关键词：大语言模型，幻觉，上下文窗口， AI对齐，模型训练

事实核查备注：需要核查：论文标题《Challenges and Applications of Large Language Models》及发布时间；Anthropic 于 2023 年 5 月宣布 Claude 支持 100K context；《卫报》关于肯尼亚内容审核员的报道时间与表述；Create AI Act 2023 的正式名称与内容描述

返回文章列表