自我改进AI离我们还有多远?一次研究基准测试给出的真实答案

AI PM 编辑部 · 2024年11月19日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

当Anthropic的Claude在AI研究测试中击败OpenAI模型,这并不只是一次榜单胜负,而是一次关于“AI是否开始参与改进AI”的关键实验。本文结合多项基准测试与一线观察,梳理自我改进AI的真实进展、瓶颈与下一阶段竞争焦点。

自我改进AI离我们还有多远?一次研究基准测试给出的真实答案

当Anthropic的Claude在AI研究测试中击败OpenAI模型,这并不只是一次榜单胜负,而是一次关于“AI是否开始参与改进AI”的关键实验。本文结合多项基准测试与一线观察,梳理自我改进AI的真实进展、瓶颈与下一阶段竞争焦点。

从“模型是否停滞”说起:AI竞争正在悄然换赛道

这期《AI Daily Brief》并没有一上来就抛出“谁赢了谁”的结论,而是先退一步,重新审视一个近期被频繁讨论的问题:大模型的能力是否正在接近平台期。过去几周,行业里反复出现一个担忧——模型性能提升的速度似乎在放缓,Scaling Law(规模定律)的边际收益不再像以前那样明显。

主持人给出的判断很清晰:即便平台期真的出现,竞争也不会停止,而是会“换一种形态继续”。他明确指出,未来的模型竞争将不再只看谁在基准测试上高0.1分,而是转向产品体验、任务定制能力,以及对企业内部数据和工作流的理解深度。换句话说,AI的“王者之争”正在从纯粹的技术指标,扩展为综合产品能力的较量。

这个背景非常关键。因为只有放在这样的语境中,我们才能理解后面那些看似零散的新闻——Anthropic与OpenAI的研究测试、Gemini突然登顶排行榜、以及自动化提示工程工具的出现——其实都指向同一个问题:当模型本身的进步变慢,我们是否已经开始让AI参与“如何更好地使用和改进AI”这件事本身?

Anthropic vs OpenAI:AI研究AI,第一次像样的对照实验

真正引发讨论的,是《The Information》披露的一项独立评测。非营利组织Model Evaluation and Threat Research设计了七个“AI研究问题”,让Anthropic的Claude 3.5 Sonnet和OpenAI的o1-preview直接作答,目标很明确:测试大模型在“做AI研究”这件事上的能力。

结果颇具冲击力。Claude在七项测试中的五项胜出,其中两项被评价为“优势明显”;o1-preview赢下两项,其中一项同样是决定性胜利。但更重要的不是胜负,而是参照物——人类研究者。参与同样测试的顶级人类研究者,平均得分是模型的两倍以上。这让结论变得非常克制:AI“还远没到”能取代顶尖研究者,但已经在个别问题上,接近甚至达到“平均人类研究员”的水平。

测试内容本身也极具象征意义。例如,有一道题要求“在不使用除法和指数运算的前提下,从零编写一个语言模型的代码”;另一道题则模拟OpenAI内部研究流程,在极低算力条件下实验传统Scaling Law。这些题目被刻意设计成让人类不占优势,用评测方的话说,这是为了给AI公司留出“安全缓冲期”——即便模型在这些测试中追上人类,也并不意味着它们已经超过顶级研究者。

主持人总结得很直接:这是一个“信号灯式”的基准——告诉我们AI已经走到哪一步,但离AGI还有明显距离。

当AI开始帮你“用好AI”:提示工程的自动化转折

在“AI能否改进AI”的大主题下,Anthropic给出了一个更贴近日常开发者的例子。公司正在努力“摆脱提示工程本身”,转而构建自动优化提示的工具。他们最新在Anthropic Console中推出的功能,允许开发者直接让Claude改写和优化现有提示词。

官方的说法是,这个Prompt Improver可以“利用高级提示工程技术,自动优化手写或为其他模型设计的提示”。但主持人点破了其中的趋势意义:我们正在越来越频繁地看到“让AI教你如何更好地用AI”。

这看似是一个小工具更新,实际上却是自我改进AI的低风险版本。模型没有直接修改自身参数,而是通过改进人类与模型的交互方式,间接提升整体效果。这种路径在安全性和实用性之间取得了微妙平衡,也解释了为什么越来越多的进展不是体现在模型名称升级,而是体现在开发工具和工作流中。

从这个角度看,自我改进并不一定意味着科幻式的“AI重写自己”,而可能是大量这种细碎但持续的自动化优化。

Gemini突然登顶:是能力飞跃,还是基准测试“饱和”?

节目后半段的另一个重磅消息,来自Google DeepMind。实验模型Gemini x1.14在Chatbot Arena排行榜上突然跃升40名,整体排名第一,并同时拿下数学和创意写作两项第一,还在视觉任务上超过GPT-4o。唯一没有登顶的是代码能力,排名第三,落后于GPT-4o和o1推理模型。

这是Gemini系列第一次在该榜单上全面领先。模型目前以预览形式开放在Google AI Studio。围绕它的讨论却颇具戏剧性:Logan Kilpatrick调侃“Gemini super duper smart”的命名方式;Sam Altman被暗指可能会迅速发布新模型抢回关注度;而教授Ethan Mollick则直接吐槽,“这些模型名字就像我硬盘里的文件名一样让人困惑”。

但Ethan也给出了一个具体、可信的评价案例:他把自己的一篇学术论文交给新Gemini审阅,要求其解读表格并评论方法论。结果是,Gemini比之前版本做得好,Claude“很接近”,但在“整体视角”上略逊一筹。这个评价点出了一个被我们迅速习以为常的事实——多款模型已经能像博士生一样阅读复杂论文。

也正是在这里,节目抛出了一个耐人寻味的解释:也许我们感觉AI进步变慢,并不是模型不行了,而是“基准测试被刷满了”。当分数进入9分区间,提升空间自然变小。

总结

这期节目给出的答案并不戏剧化,但足够真实:自我改进AI正在出现早期形态,却远未失控。无论是Claude在研究测试中逼近平均研究员,还是Gemini在多项榜单登顶,都更像是量变积累,而非质变飞跃。对企业和个人而言,主持人的建议反而很务实——与其焦虑“AI是不是慢了”,不如趁这个相对平稳的窗口,把已经极其强大的工具真正用好。因为如果历史一再重演,这种“喘息期”不会持续太久。


关键词: 自我改进AI, Claude 3.5 Sonnet, Gemini, AI研究基准, 大语言模型

事实核查备注: Anthropic模型:Claude 3.5 Sonnet;OpenAI模型:o1-preview;评测机构:Model Evaluation and Threat Research;测试数量:7个研究问题;Claude胜出5项;Gemini模型:Gemini x1.14;榜单:Chatbot Arena;Gemini在代码能力排名第3;涉及人物:Sam Altman、Ethan Mollick;涉及产品:GPT-4o、Gemini Pro