当基准失效后,AI真的能预测未来吗?

AI PM 编辑部 · 2025年08月20日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

在传统AI基准逐渐饱和的背景下,一项名为Profit Arena的新实验尝试用“预测未来”的能力来衡量模型智能。它结合真实预测市场,让AI用概率和金钱表现说话,揭示了不同模型在不确定性、推理风格和“预测智能”上的真实差异。

当基准失效后,AI真的能预测未来吗?

在传统AI基准逐渐饱和的背景下,一项名为Profit Arena的新实验尝试用“预测未来”的能力来衡量模型智能。它结合真实预测市场,让AI用概率和金钱表现说话,揭示了不同模型在不确定性、推理风格和“预测智能”上的真实差异。

基准为何失灵:我们正在“看不见”AI的进步

理解AI能力是否还在进步,前提是我们能否准确测量它。这正是视频一开始抛出的核心问题。主持人直言,今年围绕AI的怀疑论,并非第一次出现,而是一种“夏季现象”——每年都会有新的叙事。今年的导火索,是外界对GPT-5早期表现的失望,引发了大量主流媒体关于“AI停滞”的讨论。

但在他看来,问题并不在模型本身,而在工具。“这其实不是模型能力的问题,而是基准饱和的问题。”当模型在考试、代码、阅读理解等测试上频频满分,分数已经无法区分谁更强,我们自然会产生“进步停滞”的错觉。正因为如此,学界和产业界开始尝试新的评测方式,例如ARIG-3这样的交互式推理基准,甚至用游戏环境来测试模型的互动能力。

然而,这些新基准仍然非常早期,尚不足以成为统一尺度。于是,一个更激进的问题浮现出来:如果考试都考不出差距了,为什么不直接考AI最困难、也最有人类特色的能力——预测未来?

预测市场的启示:当判断背后有真金白银

在基准逐渐失灵的同时,另一股力量正在悄然壮大:预测市场。视频中特别提到Kosho和Polymarket等平台,人们可以对从政治、体育到科技趋势的各种事件下注。与专家评论或媒体共识不同,这些市场往往给出完全不同的答案。

原因很简单:参与者是真正“用钱投票”。正如《华尔街日报》的一句形容——“赌徒现在像赛马一样给AI模型下注”。虽然AI相关预测在整体市场中仍然占比不高,但交易量正在快速增长。支持者认为,这种市场体现的是一种“带有经济激励的集体智慧”,因为错误判断会直接带来损失。

这些平台也暴露了一个重要事实:预测的好坏,不仅仅是对不对的问题,还涉及概率是否合理、风险是否定价正确。换句话说,预测是一种综合能力,而不仅是知识问答。这正好为下一步的实验提供了现实土壤。

Profit Arena:把AI丢进真实世界的预测场

于是,芝加哥大学的研究者提出了Profit Arena——一个被称为“通用预测智能基准”的新项目。它的出发点很简单:如果预测是人类最核心的智力活动之一,那AI是否真的掌握了它?“今天的AI可以轻松通过考试,但它能否可靠地预测未来?”

Profit Arena不再使用静态问题,而是持续更新的真实世界预测任务,覆盖多个领域,并且包含重复事件,确保长期可比性。AI模型需要提交结构化的概率预测,同时给出理由。评估方式也很“现实”:既看绝对准确度,比如Brier Score(一种衡量概率预测误差的指标),也看相对指标,例如平均回报率,模拟真实下注策略。

这种设计带来了一个重要转折:准确率高,并不一定赚得多;校准良好的概率,也不一定在市场中获胜。正如视频中反复强调的,“统计上的好预测,并不总是经济上的好预测”。这让预测第一次成为一个真正多维度的智能测试。

模型的“性格”:谁更准,谁更敢赌

早期结果已经展现出令人意外的差异。在平均回报率上,O3 Mini排名最高;而在Brier Score上,GPT-5表现最佳。这意味着前者在“赚钱”层面更激进,而后者在概率校准上更稳健。主持人用一个生动的说法总结:模型开始展现出不同的“性格”。

一个具体案例来自美国职业足球大联盟(MLS)。在某些比赛预测中,AI模型整体上显著优于人类市场,找到了真实的概率偏差。这并不是因为AI掌握了独家信息,而是它们在处理不确定性时方式不同。

更有意思的是,在AI监管相关事件的预测中,不同模型在使用相同公开信息的情况下,给出了差异极大的概率判断。这直接说明,即便在基准看似饱和的时代,推理路径和风险态度仍然能拉开差距。

预测、AGI与安全:兴奋背后的隐忧

Profit Arena迅速在AI社区引发讨论。有人将预测能力视为通往AGI的重要信号,也有人担心这只是另一种形式的“基准投机”。安全研究者则提出更深一层的问题:AI究竟是在真正理解因果,还是在模式记忆的延伸上碰巧押对?

视频还提出一个耐人寻味的视角:预测本身可能改变未来。当AI和人类同时参与市场,它们的判断会不会形成自我实现的预言?这种反馈循环,可能带来全新的挑战。

尽管如此,整体氛围是兴奋的。正如主持人所说,这并不是一个完美答案,而是一次重要实验——至少,它让我们重新思考,在考试之外,什么才是真正重要的智能表现。

总结

当传统基准无法再区分模型强弱时,Profit Arena用预测未来的方式,为AI能力评估打开了一扇新窗。它提醒我们,智能不仅是答对问题,更是如何面对不确定性、权衡风险并承担后果。对读者而言,这意味着未来讨论AI进步时,或许该少看分数,多看它在真实世界中的判断力。


关键词: AI预测, Profit Arena, 预测市场, 通用人工智能, AI推理

事实核查备注: 视频来源:The AI Daily Brief;项目名称:Profit Arena;机构:芝加哥大学;预测平台示例:Polymarket;评估指标:Brier Score、平均回报率;模型表现:O3 Mini平均回报率最高,GPT-5 Brier Score最高;案例领域:美国职业足球大联盟(MLS);相关基准:ARIG-3