没人能买排名:这家“AI裁判”如何左右大模型江湖
正在加载视频...
视频章节
当所有大模型厂商都在拼命讲故事、晒自家指标时,有一家公司选择站在牌桌外,只做一件事:独立跑评测。Artificial Analysis 的创始人坦言:你不能花钱买更好的结果。正是这句看似“反商业”的坚持,让它成了今天 AI 行业最有影响力的第三方裁判。
没人能买排名:这家“AI裁判”如何左右大模型江湖
当所有大模型厂商都在拼命讲故事、晒自家指标时,有一家公司选择站在牌桌外,只做一件事:独立跑评测。Artificial Analysis 的创始人坦言:你不能花钱买更好的结果。正是这句看似“反商业”的坚持,让它成了今天 AI 行业最有影响力的第三方裁判。
一句话得罪所有厂商,却成了行业刚需
Artificial Analysis 有一句内部原则,几乎写在了它的商业墓志铭上:“No one pays to be on the website.”——没有任何模型、任何厂商,可以通过付费换取更好排名。
在一个 benchmark 被疯狂“优化”、prompt 被偷偷定制、测试集被反复刷分的时代,这句话极其反直觉。毕竟,跑评测很贵、很累、也很容易被质疑:那你靠什么活?
但正是这条红线,让 Artificial Analysis 在短短两年内,成为开发者、企业、投资人默认会看的“模型事实表”。Latent Space 主持人 Swyx 甚至调侃他们是“AI 世界的新 Gartner”,而两位创始人 George Cameron 和 Micah-Hill Smith 立刻补刀:你不能付钱让我们给你更好的结果。
讽刺的是,也正因为这条“不卖结果”的底线,几乎所有大厂反而都愿意接受他们的评测——因为谁也不希望竞争对手能暗箱操作。
一个法律 AI 副业,逼出了整个行业的评测体系
Artificial Analysis 的起点并不宏大。Micah 在 2023 年做的是一个法律 AI 研究助手,真正让他痛苦的不是模型不会答题,而是:每一环都是隐形的 benchmark 问题。
用哪个模型?用多大的?速度、成本、准确率怎么权衡?当时几乎没有任何“独立第三方”能系统性回答这些问题。论文里的数字不可复现,实验条件各不相同,Excel 表满天飞。
于是他们做了一件很工程师的事:自己跑。所有模型、同样的 prompt、同样的评测流程,把“聪明程度”和“速度 / 成本”放在同一张表里。
一开始,这甚至只是个 side project。George 没辞职,Micah 还在做法律 AI。他们只是把网站挂出来、发了条推。真正的转折点,是开源模型 Mixtral 和随后模型数量的爆炸式增长——当选择变多,评测突然从“锦上添花”变成了“生死指南”。
Benchmark 为什么这么贵?因为“跑一次”根本不够
很多人低估了严肃评测的成本。Artificial Analysis 早期的账单只是“几百美元”,但今天,这个数字已经线性失控。
原因不复杂:单次跑分没有意义。
现代推理模型在多选题上的 variance 极大,尤其在题目数量少、温度较高时。一次结果,可能只是运气。Artificial Analysis 为了拿到 95% 置信区间,必须重复运行大量轮次。
他们公开展示的“运行成本”,其实是按单次计算;真实内部成本,要高得多。
更重要的是,他们坚持自己跑所有 eval,而不是引用实验室给的数字。原因很直接:不同 prompt、不同解析方式,差几个点就是“第一”和“第二”的差别。极端情况下,模型甚至可以被 prompt-engineer 到“专门为某个 benchmark 考试”。
为防止厂商在私有 endpoint 上“区别对待”,他们还有一套“mystery shopper”机制:用非官方账号,悄悄跑同样的测试。所有合作实验室都知情,也都默认接受——因为这对所有人都更公平。
当模型越来越聪明,‘不胡说’反而成了新稀缺能力
Artificial Analysis 最近做的一件事,可能会悄悄改变模型训练的激励机制:他们推出了 Omniscience Index。
这个指标不再只奖励“答对多少”,而是明确惩罚“答错但很自信”。如果模型不知道,却硬编答案,直接扣分;如果说“我不知道”,反而不扣。
结果非常有意思:模型的“整体智力”与“幻觉率”几乎不相关。更聪明,并不意味着更诚实。
在这个指标上,Anthropic 的 Claude 系列幻觉率明显更低;而一些参数更大的模型,知识面更广,但在“不知道时闭嘴”这件事上,并不占优。
他们甚至发现一个更反直觉的现象:Omniscience 的“准确率”与模型的总参数量高度相关,却与“激活参数比例(稀疏度)”关系不大。这意味着,至少在纯知识回忆上,‘模型有多大’依然比‘有多聪明地用参数’更重要。
这类指标的意义不在于给出唯一答案,而是在改变厂商的优化方向:不是所有场景,都应该鼓励模型‘勇敢乱猜’。
AI 变便宜了,但账单为什么反而爆炸?
Artificial Analysis 最出圈的一张趋势图,被称为“微笑曲线”。左边,是智能成本的断崖式下降;右边,是企业 AI 支出的持续飙升。
两件事同时为真:
- GPT-4 级别的智能,今天可以用 100 倍甚至 1000 倍更低的成本获得。
- 但越来越多公司,每个工程师每月在 AI 上烧掉几千美元。
原因在于:我们并没有‘用更小的模型,做同样的事’,而是‘用更大的模型,做以前做不到的事’。
推理模型消耗更多 token,Agent 工作流带来指数级调用,多模态、长上下文、工具调用叠加在一起,把单次任务的 token 量推到新高。
硬件确实在进步。Blackwell 相比 Hopper,在真实推理负载下带来的不是 2–3 倍,而是更复杂但更可观的整体效率提升。但这些红利,很快又被更大的模型、更长的任务吃掉。
结论不是“AI 会变便宜”,而是:单位智能更便宜,但你会买更多智能。
总结
Artificial Analysis 的价值,并不只是一个排行榜,而是一种行业共识的锚点:当模型数量爆炸、说法彼此矛盾时,至少有一套你知道“没人能买通”的基准。对从业者来说,这期播客有三个现实启发:第一,不要只看单一分数,成本、速度、幻觉率同样重要;第二,Agent 时代真正稀缺的是“少走弯路”,而不只是“单次聪明”;第三,评测本身正在塑造模型未来的样子。一个值得思考的问题是:当 benchmark 开始奖励‘不胡说’,你的产品,是不是也该这么设计?
关键词: Artificial Analysis, 大模型评测, 幻觉率, AI Agent, 推理模型
事实核查备注: Artificial Analysis 成立时间(约 2024 年初);公司规模“20+ 人”;Omniscience Index 评分区间(-100 到 +100);Blackwell 相比 Hopper 的性能提升为趋势性判断而非官方倍率;DeepSeek V3 发布时间为 2024 年 12 月下旬;AI Grant 批次为 Batch 4