终于有了衡量AI真实价值的标尺：GDP Val为何如此重要

AI PM 编辑部 · 2025年09月29日 · 9 阅读 · AI/人工智能

AI Agent 生成式AI 多模态 Midjourney ChatGPT GPT-4o OpenAI Meta

正在加载视频...

视频章节

当模型排行榜越来越像智力竞赛，OpenAI推出GDP Val，试图回答一个更现实的问题：AI到底能创造多少真实经济价值？这期视频不仅介绍了这一全新基准的设计细节，也通过Meta和Spotify的案例，揭示生成式AI正在撞上的社会与平台边界。

终于有了衡量AI真实价值的标尺：GDP Val为何如此重要

当模型排行榜越来越像智力竞赛，OpenAI推出GDP Val，试图回答一个更现实的问题：AI到底能创造多少真实经济价值？这期视频不仅介绍了这一全新基准的设计细节，也通过Meta和Spotify的案例，揭示生成式AI正在撞上的社会与平台边界。

为什么说我们一直缺一个“有用性”基准

这期《The AI Daily Brief》一开场，主播就抛出一个强烈对比：当天OpenAI发布了多个重磅消息，包括他用“开启环境式AI新范式”来形容的ChatGPT Pulse，但“对我个人来说，这甚至不是今天最令人兴奋的OpenAI公告”。这个判断的背后，是他长期以来对AI评测方式的不满。

在他看来，现有基准更多衡量的是模型“聪不聪明”，而不是“有没有用”。他反复提到一个关键词：utility score——一种能够直接反映新模型解锁了哪些新用例的指标。正是在这个背景下，GDP Val出现了。OpenAI将其定义为“衡量AI在真实世界、具有经济价值任务上的表现”，并明确宣称要“用证据而非猜测来衡量进步”。

这一转向本身就是一个重要信号：行业开始意识到，参数规模、考试分数和花哨演示，已经不足以解释AI对现实经济的影响。真正重要的问题变成了：AI是否真的在接管、协助或重塑那些构成GDP的工作。

GDP Val是怎么设计的：不是考试题，而是真实工作

GDP Val之所以让主播感到“强大而且来得太晚”，关键在于它的设计思路。这个基准覆盖了美国GDP贡献最高的九大行业、44种具体职业，总共包含1320个高度专业化的任务。OpenAI解释名称来源时写道：“我们从国内生产总值这一关键经济指标出发，选择了对GDP贡献最大的行业中的核心职业任务。”

更重要的是任务本身的形态。它们并非简单的文本提示，而是源自真实工作产出：法律简报、工程蓝图、客服对话记录、护理计划等。每一个任务都由至少拥有14年从业经验的专业人士设计和审核。这意味着，模型面对的不是“像考试一样的合成题目”，而是接近真实工作的复杂约束。

视频中提到的一个例子来自制片人岗位：要求规划一个60秒的B2B视频项目，给出详细时间线，并提供大量上下文材料。任务的期望交付物可能是文档、幻灯片、表格，甚至多媒体内容。这种复杂度，正是传统基准几乎从未覆盖的。

评分方式与结果：AI开始“追平”专家意味着什么

如果任务已经足够真实，那么如何评分就成了下一个关键问题。GDP Val采用的是“盲评”：来自同一职业的专家评审，在不知道作者身份的情况下，对比AI生成的交付物与人类作品，将其评为更好、相当或更差。每一次判断都有详细评分量表支撑。

在此基础上，OpenAI还训练了一个自动评分器，用来估计专家判断，但主播特别强调：它“还不能取代人类评估”。这一点，反而增强了基准的可信度。

结果同样耐人寻味。基于GDP Val，模型在“赢或打平专家表现”上的速度正在加快，从GPT-4o到GPT-5，整体表现提升了不止一倍。更具戏剧性的是，Claude Opus 4.1成为当前表现最好的模型，甚至超过了GPT-5 High，而OpenAI依然选择公开这一结果。这种“让竞争对手赢在自己制定的基准上”的做法，本身就传递出一种信心：他们更看重基准的行业影响力，而非短期排名。

当AI内容泛滥：从Meta Vibes到Spotify的反击

在讲完GDP Val的振奋人心之后，视频后半段迅速切换到一种截然不同的情绪。Meta发布了Vibes——Meta AI应用中的一个短视频信息流，专门用于AI生成视频，结合了与MidJourney和Black Forest Labs的合作。但公众反应几乎是一边倒的负面。

多位创始人、作家和评论员将其称为“算法垃圾”“可耻”“对社会有害”。主播并不完全否认这种厌恶情绪，但他指出一个更结构性的原因：当内容生产成本趋近于零，平台必然会被AI生成内容淹没，发现算法的重要性随之被无限放大。

Spotify的做法提供了另一个对照案例。平台宣布一次性下架了7500万首“垃圾化”的AI生成音乐，理由包括欺骗听众和转移版税。同时，他们并未禁止AI音乐实验，而是针对模仿、声音克隆设立新规则。在主播看来，这可能只是开始——未来我们或许会看到AI与非AI内容被暂时性地分流，甚至催生全新的社交与内容平台。

总结

GDP Val的真正意义，并不在于某个模型暂时领先，而在于它重新定义了“进步”的含义：从抽象能力走向可计量的经济价值。与此同时，Meta和Spotify的故事提醒我们，生产力的飞跃必然伴随内容生态的震荡。对从业者而言，下一步不是问AI有多聪明，而是思考：当AI真的能完成这些工作时，你所在的位置会如何变化？

关键词： GDP Val， AI基准测试， OpenAI，生成式AI， AI内容平台

事实核查备注：视频来源：The AI Daily Brief；基准名称：GDP Val；覆盖职业：44个；行业数量：9个；任务总数：1320；任务设计者经验：至少14年；模型对比：GPT-4o、GPT-5、Claude Opus 4.1；Meta产品：Vibes；Spotify下架AI音乐数量：7500万首。

返回文章列表