当基准走向真实世界:一次AI评测与芯片博弈的年终切片

AI PM 编辑部 · 2025年12月15日 · 12 阅读 · AI/人工智能

正在加载视频...

视频章节

这期《AI Daily Brief》把视角从“刷榜”的模型基准,拉回到真实世界的工作任务,同时又突然切入中美芯片博弈与资本市场震荡。它展示了评测方法、算力成本、地缘政治如何在同一时间点交织,塑造AI行业的真实走向。

当基准走向真实世界:一次AI评测与芯片博弈的年终切片

这期《AI Daily Brief》把视角从“刷榜”的模型基准,拉回到真实世界的工作任务,同时又突然切入中美芯片博弈与资本市场震荡。它展示了评测方法、算力成本、地缘政治如何在同一时间点交织,塑造AI行业的真实走向。

为什么传统Benchmark正在失效

这一切的起点,是主持人对基准测试一贯而明确的不满。他直言自己“不是benchmark的粉丝”,原因并不新鲜,却依然尖锐:很多基准已经饱和,不同模型之间的分差微乎其微;很多可以被“刷分”;更重要的是,它们并不真正存在于人们使用模型的真实环境中。换句话说,这些分数并不能回答一个关键问题:模型在现实工作中到底好不好用。

正因为如此,视频强调了一个正在发生的转向——评测开始试图贴近真实世界任务,而不只是学术或玩具式问题。这一点本身就是一个重要洞见:当模型能力进入高位区间,区分度不再来自“会不会”,而是来自“能不能完整地把事做完”。这也是为什么“端到端完成任务”开始成为评测的核心,而不是单点能力。

GDPval:用44种职业检验模型的“真本事”

OpenAI在2025年9月推出的GDPval,是这种思路的集中体现。它并不是问模型某个问题答得准不准,而是让模型完成一整套“有经济价值的知识工作任务”,覆盖44种职业。任务包含理解指令、检索信息、执行具体工作,并最终交付成果。

但真正棘手的地方在于评分。OpenAI当时的做法是,用来自相同职业背景的资深专家作为人工评审,同时搭配自动评分系统。他们承认,自动评分“还不够可靠”,因此并不急于替代人类。这一点在视频中被特别点出,因为它揭示了一个现实:越接近真实世界的评测,越难完全自动化。

这也是GDPval的价值所在——它不完美,却明确承认了复杂性,而不是用一个看似精确、实则空洞的数字掩盖问题。

当GDPval被“通用化”:性能、成本与效率的三角关系

转折来自Artificial Analysis。他们基于GDPval任务集,搭建了一套可在任何大语言模型上运行的评测框架,完全依赖AI评分流水线,并将其称为“今天比较通用代理式性能的最佳方式”。

结果颇具戏剧性:尽管基准由OpenAI提出,但跑分第一的是Opus 4.5,GPT‑5位居第二,Claude Sonnet 4.5第三。GPT‑5.1反而略逊于GPT‑5,只排第四。Artificial Analysis给出的解释很关键:5.1在任务中使用的token数量只有GPT‑5的一半,效率提升带来了“轻微但真实的质量代价”。

更现实的,是成本差异。Opus 4.5虽然登顶,但单次完整评测成本高达68美元,是其他模型的两倍以上;DeepSeek 3.2则以29美元完成同样流程,约为Opus成本的1/20,并成为性价比最突出的模型。这一段清楚地展示了现实世界的三角难题:性能、效率和成本,几乎不可能同时最大化。

从评测跳到芯片:真实世界的另一条战线

视频后半段突然转向地缘政治,却并不突兀。所谓“真实世界”,不仅是任务评测,还包括算力从何而来。报道称,DeepSeek可能通过第三国数据中心,将被禁出口的NVIDIA Blackwell芯片拆解、走私回中国,用于搭建数千张卡规模的训练集群。如果属实,这将是首次有证据显示中国实验室成功获取足够数量的尖端芯片,用于商业级训练。

NVIDIA的回应耐人寻味:他们表示“尚未看到任何证据”,但也承认会跟进所有线索。与此同时,北京据称正在紧急评估是否接受H200芯片进口,与阿里巴巴、字节跳动、腾讯等公司讨论具体需求。这暴露了一个两难抉择:是继续依赖暂时无法国产替代的高端芯片,还是强推本土方案以换取长期自主。

视频最后用Oracle财报收尾。AI基础设施支出激增、股价下跌11%,再次提醒市场:AI叙事正在现实世界的财务和资本约束中反复摇摆。正如主持人所说,我们可能还会在“泡沫与否”之间来回摆动很久。

总结

这期视频的价值,不在于给出一个新的“最强模型”结论,而在于串起了一条更真实的逻辑链:评测正在走向真实工作,模型竞争不可避免地暴露成本与效率差异,而算力与芯片又把一切拉回地缘政治与资本市场。对读者而言,最大的启发是:未来判断AI进展,不能只看榜单,而要同时看任务、算力和现实约束。


关键词: GDPval, 大语言模型评测, Token效率, AI芯片, DeepSeek

事实核查备注: GDPval由OpenAI于2025年9月提出;覆盖44种职业任务;评分依赖人类专家+自动评分;Artificial Analysis推出GDPvala评测框架;Opus 4.5排名第一、GPT‑5第二、Claude Sonnet 4.5第三;Opus评测成本68美元,DeepSeek 3.2约29美元;涉及芯片为NVIDIA Blackwell与H200;Oracle单季资本支出约120亿美元,股价盘后下跌11%。