当基准失效后，AI真的能预测未来吗？

AI PM 编辑部 · 2025年08月20日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

在传统AI基准逐渐饱和的背景下，一项名为Profit Arena的新实验尝试用“预测未来”的能力来衡量模型智能。它结合真实预测市场，让AI用概率和金钱表现说话，揭示了不同模型在不确定性、推理风格和“预测智能”上的真实差异。

当基准失效后，AI真的能预测未来吗？

在传统AI基准逐渐饱和的背景下，一项名为Profit Arena的新实验尝试用“预测未来”的能力来衡量模型智能。它结合真实预测市场，让AI用概率和金钱表现说话，揭示了不同模型在不确定性、推理风格和“预测智能”上的真实差异。

基准为何失灵：我们正在“看不见”AI的进步

理解AI能力是否还在进步，前提是我们能否准确测量它。这正是视频一开始抛出的核心问题。主持人直言，今年围绕AI的怀疑论，并非第一次出现，而是一种“夏季现象”——每年都会有新的叙事。今年的导火索，是外界对GPT-5早期表现的失望，引发了大量主流媒体关于“AI停滞”的讨论。

但在他看来，问题并不在模型本身，而在工具。“这其实不是模型能力的问题，而是基准饱和的问题。”当模型在考试、代码、阅读理解等测试上频频满分，分数已经无法区分谁更强，我们自然会产生“进步停滞”的错觉。正因为如此，学界和产业界开始尝试新的评测方式，例如ARIG-3这样的交互式推理基准，甚至用游戏环境来测试模型的互动能力。

然而，这些新基准仍然非常早期，尚不足以成为统一尺度。于是，一个更激进的问题浮现出来：如果考试都考不出差距了，为什么不直接考AI最困难、也最有人类特色的能力——预测未来？

预测市场的启示：当判断背后有真金白银

在基准逐渐失灵的同时，另一股力量正在悄然壮大：预测市场。视频中特别提到Kosho和Polymarket等平台，人们可以对从政治、体育到科技趋势的各种事件下注。与专家评论或媒体共识不同，这些市场往往给出完全不同的答案。

原因很简单：参与者是真正“用钱投票”。正如《华尔街日报》的一句形容——“赌徒现在像赛马一样给AI模型下注”。虽然AI相关预测在整体市场中仍然占比不高，但交易量正在快速增长。支持者认为，这种市场体现的是一种“带有经济激励的集体智慧”，因为错误判断会直接带来损失。

这些平台也暴露了一个重要事实：预测的好坏，不仅仅是对不对的问题，还涉及概率是否合理、风险是否定价正确。换句话说，预测是一种综合能力，而不仅是知识问答。这正好为下一步的实验提供了现实土壤。

Profit Arena：把AI丢进真实世界的预测场

于是，芝加哥大学的研究者提出了Profit Arena——一个被称为“通用预测智能基准”的新项目。它的出发点很简单：如果预测是人类最核心的智力活动之一，那AI是否真的掌握了它？“今天的AI可以轻松通过考试，但它能否可靠地预测未来？”

Profit Arena不再使用静态问题，而是持续更新的真实世界预测任务，覆盖多个领域，并且包含重复事件，确保长期可比性。AI模型需要提交结构化的概率预测，同时给出理由。评估方式也很“现实”：既看绝对准确度，比如Brier Score（一种衡量概率预测误差的指标），也看相对指标，例如平均回报率，模拟真实下注策略。

这种设计带来了一个重要转折：准确率高，并不一定赚得多；校准良好的概率，也不一定在市场中获胜。正如视频中反复强调的，“统计上的好预测，并不总是经济上的好预测”。这让预测第一次成为一个真正多维度的智能测试。

模型的“性格”：谁更准，谁更敢赌

早期结果已经展现出令人意外的差异。在平均回报率上，O3 Mini排名最高；而在Brier Score上，GPT-5表现最佳。这意味着前者在“赚钱”层面更激进，而后者在概率校准上更稳健。主持人用一个生动的说法总结：模型开始展现出不同的“性格”。

一个具体案例来自美国职业足球大联盟（MLS）。在某些比赛预测中，AI模型整体上显著优于人类市场，找到了真实的概率偏差。这并不是因为AI掌握了独家信息，而是它们在处理不确定性时方式不同。

更有意思的是，在AI监管相关事件的预测中，不同模型在使用相同公开信息的情况下，给出了差异极大的概率判断。这直接说明，即便在基准看似饱和的时代，推理路径和风险态度仍然能拉开差距。

预测、AGI与安全：兴奋背后的隐忧

Profit Arena迅速在AI社区引发讨论。有人将预测能力视为通往AGI的重要信号，也有人担心这只是另一种形式的“基准投机”。安全研究者则提出更深一层的问题：AI究竟是在真正理解因果，还是在模式记忆的延伸上碰巧押对？

视频还提出一个耐人寻味的视角：预测本身可能改变未来。当AI和人类同时参与市场，它们的判断会不会形成自我实现的预言？这种反馈循环，可能带来全新的挑战。

尽管如此，整体氛围是兴奋的。正如主持人所说，这并不是一个完美答案，而是一次重要实验——至少，它让我们重新思考，在考试之外，什么才是真正重要的智能表现。

总结

当传统基准无法再区分模型强弱时，Profit Arena用预测未来的方式，为AI能力评估打开了一扇新窗。它提醒我们，智能不仅是答对问题，更是如何面对不确定性、权衡风险并承担后果。对读者而言，这意味着未来讨论AI进步时，或许该少看分数，多看它在真实世界中的判断力。

关键词： AI预测， Profit Arena，预测市场，通用人工智能， AI推理

事实核查备注：视频来源：The AI Daily Brief；项目名称：Profit Arena；机构：芝加哥大学；预测平台示例：Polymarket；评估指标：Brier Score、平均回报率；模型表现：O3 Mini平均回报率最高，GPT-5 Brier Score最高；案例领域：美国职业足球大联盟（MLS）；相关基准：ARIG-3

返回文章列表