没人能买排名：这家“AI裁判”如何左右大模型江湖

AI PM 编辑部 · 2026年01月08日 · 12 阅读 · AI/人工智能

Elon Musk Nat Friedman Ilya Sutskever Daniel Gross AI推理预训练 AI应用 Token 推理开源模型

正在加载视频...

视频章节

当所有大模型厂商都在拼命讲故事、晒自家指标时，有一家公司选择站在牌桌外，只做一件事：独立跑评测。Artificial Analysis 的创始人坦言：你不能花钱买更好的结果。正是这句看似“反商业”的坚持，让它成了今天 AI 行业最有影响力的第三方裁判。

没人能买排名：这家“AI裁判”如何左右大模型江湖

当所有大模型厂商都在拼命讲故事、晒自家指标时，有一家公司选择站在牌桌外，只做一件事：独立跑评测。Artificial Analysis 的创始人坦言：你不能花钱买更好的结果。正是这句看似“反商业”的坚持，让它成了今天 AI 行业最有影响力的第三方裁判。

一句话得罪所有厂商，却成了行业刚需

Artificial Analysis 有一句内部原则，几乎写在了它的商业墓志铭上：“No one pays to be on the website.”——没有任何模型、任何厂商，可以通过付费换取更好排名。

在一个 benchmark 被疯狂“优化”、prompt 被偷偷定制、测试集被反复刷分的时代，这句话极其反直觉。毕竟，跑评测很贵、很累、也很容易被质疑：那你靠什么活？

但正是这条红线，让 Artificial Analysis 在短短两年内，成为开发者、企业、投资人默认会看的“模型事实表”。Latent Space 主持人 Swyx 甚至调侃他们是“AI 世界的新 Gartner”，而两位创始人 George Cameron 和 Micah-Hill Smith 立刻补刀：你不能付钱让我们给你更好的结果。

讽刺的是，也正因为这条“不卖结果”的底线，几乎所有大厂反而都愿意接受他们的评测——因为谁也不希望竞争对手能暗箱操作。

一个法律 AI 副业，逼出了整个行业的评测体系

Artificial Analysis 的起点并不宏大。Micah 在 2023 年做的是一个法律 AI 研究助手，真正让他痛苦的不是模型不会答题，而是：每一环都是隐形的 benchmark 问题。

用哪个模型？用多大的？速度、成本、准确率怎么权衡？当时几乎没有任何“独立第三方”能系统性回答这些问题。论文里的数字不可复现，实验条件各不相同，Excel 表满天飞。

于是他们做了一件很工程师的事：自己跑。所有模型、同样的 prompt、同样的评测流程，把“聪明程度”和“速度 / 成本”放在同一张表里。

一开始，这甚至只是个 side project。George 没辞职，Micah 还在做法律 AI。他们只是把网站挂出来、发了条推。真正的转折点，是开源模型 Mixtral 和随后模型数量的爆炸式增长——当选择变多，评测突然从“锦上添花”变成了“生死指南”。

Benchmark 为什么这么贵？因为“跑一次”根本不够

很多人低估了严肃评测的成本。Artificial Analysis 早期的账单只是“几百美元”，但今天，这个数字已经线性失控。

原因不复杂：单次跑分没有意义。

现代推理模型在多选题上的 variance 极大，尤其在题目数量少、温度较高时。一次结果，可能只是运气。Artificial Analysis 为了拿到 95% 置信区间，必须重复运行大量轮次。

他们公开展示的“运行成本”，其实是按单次计算；真实内部成本，要高得多。

更重要的是，他们坚持自己跑所有 eval，而不是引用实验室给的数字。原因很直接：不同 prompt、不同解析方式，差几个点就是“第一”和“第二”的差别。极端情况下，模型甚至可以被 prompt-engineer 到“专门为某个 benchmark 考试”。

为防止厂商在私有 endpoint 上“区别对待”，他们还有一套“mystery shopper”机制：用非官方账号，悄悄跑同样的测试。所有合作实验室都知情，也都默认接受——因为这对所有人都更公平。

当模型越来越聪明，‘不胡说’反而成了新稀缺能力

Artificial Analysis 最近做的一件事，可能会悄悄改变模型训练的激励机制：他们推出了 Omniscience Index。

这个指标不再只奖励“答对多少”，而是明确惩罚“答错但很自信”。如果模型不知道，却硬编答案，直接扣分；如果说“我不知道”，反而不扣。

结果非常有意思：模型的“整体智力”与“幻觉率”几乎不相关。更聪明，并不意味着更诚实。

在这个指标上，Anthropic 的 Claude 系列幻觉率明显更低；而一些参数更大的模型，知识面更广，但在“不知道时闭嘴”这件事上，并不占优。

他们甚至发现一个更反直觉的现象：Omniscience 的“准确率”与模型的总参数量高度相关，却与“激活参数比例（稀疏度）”关系不大。这意味着，至少在纯知识回忆上，‘模型有多大’依然比‘有多聪明地用参数’更重要。

这类指标的意义不在于给出唯一答案，而是在改变厂商的优化方向：不是所有场景，都应该鼓励模型‘勇敢乱猜’。

AI 变便宜了，但账单为什么反而爆炸？

Artificial Analysis 最出圈的一张趋势图，被称为“微笑曲线”。左边，是智能成本的断崖式下降；右边，是企业 AI 支出的持续飙升。

两件事同时为真：
- GPT-4 级别的智能，今天可以用 100 倍甚至 1000 倍更低的成本获得。
- 但越来越多公司，每个工程师每月在 AI 上烧掉几千美元。

原因在于：我们并没有‘用更小的模型，做同样的事’，而是‘用更大的模型，做以前做不到的事’。

推理模型消耗更多 token，Agent 工作流带来指数级调用，多模态、长上下文、工具调用叠加在一起，把单次任务的 token 量推到新高。

硬件确实在进步。Blackwell 相比 Hopper，在真实推理负载下带来的不是 2–3 倍，而是更复杂但更可观的整体效率提升。但这些红利，很快又被更大的模型、更长的任务吃掉。

结论不是“AI 会变便宜”，而是：单位智能更便宜，但你会买更多智能。

总结

Artificial Analysis 的价值，并不只是一个排行榜，而是一种行业共识的锚点：当模型数量爆炸、说法彼此矛盾时，至少有一套你知道“没人能买通”的基准。对从业者来说，这期播客有三个现实启发：第一，不要只看单一分数，成本、速度、幻觉率同样重要；第二，Agent 时代真正稀缺的是“少走弯路”，而不只是“单次聪明”；第三，评测本身正在塑造模型未来的样子。一个值得思考的问题是：当 benchmark 开始奖励‘不胡说’，你的产品，是不是也该这么设计？

关键词： Artificial Analysis，大模型评测，幻觉率， AI Agent，推理模型

事实核查备注： Artificial Analysis 成立时间（约 2024 年初）；公司规模“20+ 人”；Omniscience Index 评分区间（-100 到 +100）；Blackwell 相比 Hopper 的性能提升为趋势性判断而非官方倍率；DeepSeek V3 发布时间为 2024 年 12 月下旬；AI Grant 批次为 Batch 4

返回文章列表