斯坦福给AI打透明度分:Llama 2第一,GPT‑4竟然只排第三

AI PM 编辑部 · 2023年10月19日 · 9 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你以为最强的AI一定最透明,这份斯坦福最新榜单会直接打脸。研究者用100个指标给主流大模型打分,结果显示:Meta 的 Llama 2 拿下第一,但也只及格一半;而整个行业,在“黑箱”这件事上几乎是集体失分。

斯坦福给AI打透明度分:Llama 2第一,GPT‑4竟然只排第三

如果你以为最强的AI一定最透明,这份斯坦福最新榜单会直接打脸。研究者用100个指标给主流大模型打分,结果显示:Meta 的 Llama 2 拿下第一,但也只及格一半;而整个行业,在“黑箱”这件事上几乎是集体失分。

一个反直觉的结果:最“开放”的模型,也只拿了54分

这次争议的源头,是斯坦福 HAI 联合 MIT、普林斯顿推出的「Foundation Model Transparency Index」。他们干了一件很多人嘴上说、但没人系统做过的事:只基于公开信息,量化衡量主流基础模型到底有多透明。

结果很炸裂——排名第一的不是大家印象里“技术最强”的模型,而是 Meta 的 Llama 2。但更炸裂的是:即便拿了第一,它的总分也只有 54%。换句话说,在研究者设计的 100 个透明度指标里,行业标杆模型,也只完成了一半。

榜单前列还包括:OpenAI 的 GPT‑4 排名第三,Stability AI 的 Stable Diffusion 排第四;Google PaLM 2、Anthropic Claude 2 分列第五、第六。而在另一端,Inflection、Amazon Titan 等模型的分数低到只有二三十分。

这传递出的信号非常明确:问题不是“谁更透明”,而是“没有谁真的透明”。

他们到底在量什么?这100个指标比你想的狠

很多人第一反应是:这种榜单会不会主观?但这套方法论,恰恰是它最难反驳的地方。

研究团队列出了整整 100 个透明度指标,分成三大块:
- 上游(Upstream):模型是怎么被“做出来”的——用了什么数据、多少算力、什么标注劳动力;
- 模型本身(Model):架构、能力、已知风险;
- 下游(Downstream):模型怎么被发布、使用、更新,以及使用政策和反馈机制。

关键点在于:他们只看公开信息。你内部知道但不说,在这个体系里等于零分。这正中“透明度”这个概念的要害。

拆分数据后,一个行业级别的尴尬暴露无遗:
- 在“训练数据”这一项,10 个模型的平均得分只有 20%;
- 最高的是 BLOOM(约 60%),Llama 2 约 40%;
- 多数模型,直接是 0–20%。

相比之下,“模型基础能力”这种不太敏感的内容,平均分能到 63%。这说明问题不在于不会披露,而在于——不想披露哪一部分。

开源 vs 闭源:差距不在代码,而在“上游秘密”

这份榜单几乎是为“开源是否更透明”这场争论,提供了迄今最硬的一次数据支撑。

前四名里,三个是开放模型:Llama 2、BLOOM、Stable Diffusion。研究者发现,真正拉开差距的不是模型能力,而是上游信息披露:
- 训练数据:开放模型平均 47%,闭源模型只有 9%;
- 劳动力与算力:开放 43%,闭源 6%;
- 方法论披露:开放模型高达 92%,闭源只有 29%。

有意思的是,闭源模型并非全线溃败。在“能力评估”“风险与缓解”“使用政策”这些下游维度,闭源模型反而略占优势。这背后的原因很现实:API 模式更容易控制使用方式,也更容易写清楚规则。

但研究者点出一个反常识的结论:很多下游透明度指标,本来更“有利于”闭源模型,但它们依然没拉开明显优势。这说明问题不只是商业模式,而是态度。

为什么巨头不透明?法律、竞争、安全,还是借口?

榜单发布后,舆论迅速分裂。

一边是《纽约时报》作者 Kevin Roose 的直球表态:“我们不能在黑箱里搞 AI 革命。”

另一边,风投大佬 Vinod Khosla 直接开喷:要求企业披露细节“幼稚”,会扼杀投资、甚至“帮助中国”,他还拿曼哈顿计划作类比。

Roose 在报道中拆解了 AI 公司最常见的三大理由:
1)怕被起诉——训练数据一透明,版权官司就找上门;
2)怕被抄——所谓“秘制数据集”和微调技巧是护城河;
3)怕不安全——信息公开会加速军备竞赛。

研究者的态度很明确:这些理由解释了动机,但不能成为行业长期不透明的正当性。尤其是最后一点——“如果你觉得披露会引发军备竞赛,那我们现在难道不是已经在竞赛里了吗?”

总结

这份透明度榜单真正重要的,不是排名,而是它暴露了一个被长期回避的现实:AI 行业的黑箱,并不是技术必然,而是选择结果。更值得注意的是,100 个指标里,有 82 个至少被一家模型满足过——这意味着透明度并非遥不可及,只是没人愿意率先做到。对从业者来说,这会直接影响你选模型、做合规、谈合作的判断;对政策制定者来说,这套指标可能比口号更有用。一个现实的行动建议是:下次评估模型时,别只问“效果如何”,而是多问一句——哪些信息,它选择不告诉你?


关键词: AI透明度, Llama 2, GPT-4, 开源模型, AI安全

事实核查备注: 需核查:1)Foundation Model Transparency Index 发布机构与参与高校(Stanford HAI、MIT、Princeton);2)各模型具体得分:Llama 2 约54%,Stable Diffusion 47%,PaLM 2 40%,Claude 2 36%,Inflection 21%,Amazon Titan 12%;3)平均透明度分数约37%;4)100个指标中82个至少被一家开发者满足;5)相关评论者:Kevin Roose、Vinod Khosla、Sam Altman 的观点表述时间与原文措辞。