开源AI反杀闭源巨头：TruthGPT、RedPajama和MiniGPT正在改写规则

AI PM 编辑部 · 2023年04月18日 · 3 阅读 · AI/人工智能

Elon Musk 多模态模型训练 Token 微调开源模型闭源模型大语言模型 AI安全视觉语言模型

正在加载视频...

视频章节

当所有人都以为算力、数据和资本只会把AI推向更封闭的巨头游戏时，一波开源模型却开始“逆袭”。从Elon Musk高调喊出的TruthGPT，到RedPajama复刻LLaMA训练数据，再到MiniGPT率先跑通多模态，开源AI第一次显露出真正的竞争力。

开源AI反杀闭源巨头：TruthGPT、RedPajama和MiniGPT正在改写规则

当所有人都以为算力、数据和资本只会把AI推向更封闭的巨头游戏时，一波开源模型却开始“逆袭”。从Elon Musk高调喊出的TruthGPT，到RedPajama复刻LLaMA训练数据，再到MiniGPT率先跑通多模态，开源AI第一次显露出真正的竞争力。

Elon Musk点燃战火：TruthGPT不只是一个模型

开源AI这场讨论真正被推上台前，来自Elon Musk。在Tucker Carlson的访谈中，他几乎是正面开火：OpenAI从“开源、非营利”转向“闭源、商业化”，让他感到失望。于是，一个叫TruthGPT的想法被抛了出来。

Musk给它的定位很激进——“最大化追求真相的AI”。他的逻辑是：如果AI理解宇宙的本质，而人类又是宇宙的一部分，它就不太可能伤害人类。这听起来既理想主义，也被不少人批评为天真，甚至带有明显的意识形态争议。

但关键不在于这个理念是否正确，而在于：当Musk入局，开源与闭源的路线之争，第一次进入主流舆论场。无论你站在哪一边，这场讨论已经无法回避。

Dolly和RedPajama：第一次有人正面复制“闭源护城河”

如果说TruthGPT更多是态度表态，那Dolly和RedPajama则是实打实的工程回应。

Databricks推出的Dolly 2.0，被称为“第一个可商用的开源指令微调大模型”。它并不追求参数规模的碾压，而是强调：人类生成的数据、明确的指令对齐，以及真正开放的许可证。

真正让圈内人坐不住的是RedPajama。Together AI几乎是明牌出招：复刻LLaMA级别的训练数据——超过1.2万亿token，然后训练基础模型，再做指令微调，最终目标是“完全可复现、可商用的开源大模型”。

这一步的象征意义很强：闭源模型最核心的护城河——数据和训练流程，第一次被系统性挑战。

MiniGPT的意外一击：多模态先跑出来的竟是开源

真正让很多开发者“破防”的，是MiniGPT。

这是一个开源的视觉-语言模型：你上传一张图片，就能围绕这张图进行对话，生成食谱、理解白板草图、甚至写诗。类似能力，OpenAI早就预告过，但迟迟未全面开放。

结果是：闭源巨头还在“等发布节奏”，开源项目已经把Demo跑给全世界看了。

这件事释放了一个危险又迷人的信号——开源不再只是“便宜替代品”，而是可能在新形态（多模态）上率先落地。这也是Stable Diffusion持续坚持开源路线、并不断进化的原因。

理想与风险并存：开源真的更安全吗？

支持者的核心论点很简单：开源能拉平创新门槛，避免少数公司垄断未来。Scale AI的一项调查显示，28%的开发者只使用开源模型，这是最高占比选项。

但反对者同样有硬理由。Ethan Mollick等人提醒：当开源模型与AutoGPT这类自动化工具结合，风险会被成倍放大。问题不再是“模型聪不聪明”，而是“谁都能用它做什么”。

于是，一个更现实的问题出现了：AI的风险，应该只掌握在少数‘认证专家’手中，还是分散到整个社会？甚至有人提出，政府可能反过来要求模型强制开源，以换取透明度。

总结

这场开源与闭源的博弈，本质上不是技术之争，而是权力如何分配的问题。对从业者来说，最现实的建议是：不要只盯着API价格或参数规模，开始真正理解开源生态——数据、微调、部署能力，都会成为你的护城河。接下来几年，监管、资本和社区力量会同时拉扯这条路线。一个值得思考的问题是：当开源模型在能力上“够用”时，你还愿意把未来完全托付给一家闭源公司吗？

关键词：开源模型，闭源模型，大语言模型，多模态， AI安全

事实核查备注：需要核查：1）TruthGPT的公开表述与原话来源（Tucker Carlson访谈，2023-04）；2）Dolly 2.0参数规模为120亿及其商用开源声明；3）RedPajama训练数据规模约1.2万亿token及其三步计划；4）MiniGPT/视觉语言模型能力描述是否与公开视频一致；5）Scale AI调查中“28%只用开源模型”的具体报告时间与样本。

返回文章列表