1万亿参数、4000种语言，AI竞赛正在突然变向

AI PM 编辑部 · 2023年05月23日 · 2 阅读 · AI/人工智能

Elon Musk 人类反馈强化学习多模态预训练 AI应用微调 AI对齐大语言模型语音AI 强化学习

正在加载视频...

视频章节

当所有人以为“大模型只会越来越大”，Intel却拿出1万亿参数押注科学研究；Meta用《圣经》训练出覆盖4000种语言的语音模型；而一篇论文却告诉行业：少量微调，反而赢过GPT‑4。这不是热闹，而是方向改变的信号。

1万亿参数、4000种语言，AI竞赛正在突然变向

当所有人以为“大模型只会越来越大”，Intel却拿出1万亿参数押注科学研究；Meta用《圣经》训练出覆盖4000种语言的语音模型；而一篇论文却告诉行业：少量微调，反而赢过GPT‑4。这不是热闹，而是方向改变的信号。

当所有人唱衰Scaling，Intel却扔出1万亿参数

过去几个月，AI圈最流行的一句话是：参数不再是王道。更高效的架构、更聪明的微调，才是未来。但Intel显然不打算跟风。

他们宣布正在训练名为Aurora的生成式AI模型，参数规模达到1万亿——如果横向对比，大约是当前ChatGPT底层数据规模的5.7倍。更反直觉的是，Intel并不是为了“聊天更像人”，而是把目标锁死在科学领域：系统生物学、癌症研究、气候科学、宇宙学、材料与聚合物化学。

这背后的逻辑很“工程师”：在通用对话上卷参数不一定划算，但在科学问题上，数据类型和规模本身就是壁垒。Aurora的训练数据不只是自然语言，还包括代码、科学论文，以及来自生物、化学、物理、医学的结构化数据。前一天节目里提到的“AI发现罕见DNA序列”，正是Intel想要规模化复制的场景。

一句话总结：当别人开始反思Scaling Laws，Intel选择在一个更难、但更值钱的方向，把油门踩到底。

Meta用《新约》训练4000种语言，争议反而成了优势

如果说Intel在“变大”，Meta则在“变广”。

Meta发布了一个大规模多语言语音AI模型，官方说法是：可识别超过4000种语言，是此前任何技术的40倍。更重要的不是数字，而是覆盖面——从今天主流语音模型支持约100种语言，跃迁到未来超过1100种可用的语音转文本、文本转语音能力。

现实背景很残酷：全球大约有7000种语言，但真正被语音识别技术“认真对待”的，只有一小部分。Meta在公告里直说，技术缺失正在加速语言消亡。

最有争议的一点在于训练数据来源——大量音频来自《新约圣经》的不同语言版本。有人担心宗教文本会带来偏见，但在研究者圈子里，这反而被视为一个现实解法：在资源极度匮乏的低资源语言场景，圣经可能是唯一规模化、多语种、可对齐的语料。

这也透露出一个行业信号：下一阶段AI竞争，不只是模型聪不聪明，而是谁能覆盖更多“被忽视的人”。

少即是多：65B模型，靠预训练赢下GPT‑4

就在大家被“万亿参数”“上千语言”震住时，一篇论文从背后泼了冷水，标题就很挑衅：《LIMA：Less Is More for Alignment》。

研究者提出了一个反直觉结论：大模型真正的能力，主要来自无监督预训练，而不是后期那套复杂的指令微调和人类反馈强化学习。他们训练了一个650亿参数的模型，只做了极少量微调，结果在人类偏好评测中，有43%的回答被认为优于GPT‑4，对Bard等模型的胜率更高。

这意味着什么？不是说对齐不重要，而是行业可能高估了“精修”的价值，低估了“打基础”的力量。

把这件事放回整个视频的脉络里，会发现一条清晰主线：从Intel的科学型预训练、Meta的海量语音覆盖，到NVIDIA讨论的多模态组合扩散模型，再到Bill Gates判断“个人AI Agent会杀死搜索和电商入口”——下一轮竞争，不只是模型更会说话，而是更早、更深地学会世界本身。

总结

把这些碎片拼在一起，你会发现一个重要转向：AI行业正在从“谁的模型更像聊天机器人”，走向“谁掌握了更独特的世界数据”。对从业者来说，这意味着两件事。第一，别只盯着微调技巧，真正的护城河可能在你现在嫌麻烦的预训练数据里。第二，多模态、低资源语言、科学数据，这些“难啃的骨头”，正在变成高价值资产。一个值得思考的问题是：如果下一代个人AI Agent真的取代搜索入口，你现在积累的数据和能力，能不能被它用上？

关键词：生成式AI，大语言模型，模型训练，多模态， AI Agent

事实核查备注：需要核查的关键事实包括：Intel Aurora模型是否明确为1万亿参数及其5.7倍ChatGPT对比；Meta语音模型覆盖“超过4000种语言”的具体定义；LIMA论文中65B模型在偏好评测中“优于GPT-4 43%”的实验条件；Bill Gates关于AI Agent取代搜索和电商入口的原始表述时间与语境。

返回文章列表