自我改进AI离我们还有多远？一次研究基准测试给出的真实答案

AI PM 编辑部 · 2024年11月19日 · 4 阅读 · AI/人工智能

Sam Altman AI安全模型训练视觉语言模型多模态通用人工智能代码生成提示工程生成式AI AI应用

正在加载视频...

视频章节

当Anthropic的Claude在AI研究测试中击败OpenAI模型，这并不只是一次榜单胜负，而是一次关于“AI是否开始参与改进AI”的关键实验。本文结合多项基准测试与一线观察，梳理自我改进AI的真实进展、瓶颈与下一阶段竞争焦点。

自我改进AI离我们还有多远？一次研究基准测试给出的真实答案

当Anthropic的Claude在AI研究测试中击败OpenAI模型，这并不只是一次榜单胜负，而是一次关于“AI是否开始参与改进AI”的关键实验。本文结合多项基准测试与一线观察，梳理自我改进AI的真实进展、瓶颈与下一阶段竞争焦点。

从“模型是否停滞”说起：AI竞争正在悄然换赛道

这期《AI Daily Brief》并没有一上来就抛出“谁赢了谁”的结论，而是先退一步，重新审视一个近期被频繁讨论的问题：大模型的能力是否正在接近平台期。过去几周，行业里反复出现一个担忧——模型性能提升的速度似乎在放缓，Scaling Law（规模定律）的边际收益不再像以前那样明显。

主持人给出的判断很清晰：即便平台期真的出现，竞争也不会停止，而是会“换一种形态继续”。他明确指出，未来的模型竞争将不再只看谁在基准测试上高0.1分，而是转向产品体验、任务定制能力，以及对企业内部数据和工作流的理解深度。换句话说，AI的“王者之争”正在从纯粹的技术指标，扩展为综合产品能力的较量。

这个背景非常关键。因为只有放在这样的语境中，我们才能理解后面那些看似零散的新闻——Anthropic与OpenAI的研究测试、Gemini突然登顶排行榜、以及自动化提示工程工具的出现——其实都指向同一个问题：当模型本身的进步变慢，我们是否已经开始让AI参与“如何更好地使用和改进AI”这件事本身？

Anthropic vs OpenAI：AI研究AI，第一次像样的对照实验

真正引发讨论的，是《The Information》披露的一项独立评测。非营利组织Model Evaluation and Threat Research设计了七个“AI研究问题”，让Anthropic的Claude 3.5 Sonnet和OpenAI的o1-preview直接作答，目标很明确：测试大模型在“做AI研究”这件事上的能力。

结果颇具冲击力。Claude在七项测试中的五项胜出，其中两项被评价为“优势明显”；o1-preview赢下两项，其中一项同样是决定性胜利。但更重要的不是胜负，而是参照物——人类研究者。参与同样测试的顶级人类研究者，平均得分是模型的两倍以上。这让结论变得非常克制：AI“还远没到”能取代顶尖研究者，但已经在个别问题上，接近甚至达到“平均人类研究员”的水平。

测试内容本身也极具象征意义。例如，有一道题要求“在不使用除法和指数运算的前提下，从零编写一个语言模型的代码”；另一道题则模拟OpenAI内部研究流程，在极低算力条件下实验传统Scaling Law。这些题目被刻意设计成让人类不占优势，用评测方的话说，这是为了给AI公司留出“安全缓冲期”——即便模型在这些测试中追上人类，也并不意味着它们已经超过顶级研究者。

主持人总结得很直接：这是一个“信号灯式”的基准——告诉我们AI已经走到哪一步，但离AGI还有明显距离。

当AI开始帮你“用好AI”：提示工程的自动化转折

在“AI能否改进AI”的大主题下，Anthropic给出了一个更贴近日常开发者的例子。公司正在努力“摆脱提示工程本身”，转而构建自动优化提示的工具。他们最新在Anthropic Console中推出的功能，允许开发者直接让Claude改写和优化现有提示词。

官方的说法是，这个Prompt Improver可以“利用高级提示工程技术，自动优化手写或为其他模型设计的提示”。但主持人点破了其中的趋势意义：我们正在越来越频繁地看到“让AI教你如何更好地用AI”。

这看似是一个小工具更新，实际上却是自我改进AI的低风险版本。模型没有直接修改自身参数，而是通过改进人类与模型的交互方式，间接提升整体效果。这种路径在安全性和实用性之间取得了微妙平衡，也解释了为什么越来越多的进展不是体现在模型名称升级，而是体现在开发工具和工作流中。

从这个角度看，自我改进并不一定意味着科幻式的“AI重写自己”，而可能是大量这种细碎但持续的自动化优化。

Gemini突然登顶：是能力飞跃，还是基准测试“饱和”？

节目后半段的另一个重磅消息，来自Google DeepMind。实验模型Gemini x1.14在Chatbot Arena排行榜上突然跃升40名，整体排名第一，并同时拿下数学和创意写作两项第一，还在视觉任务上超过GPT-4o。唯一没有登顶的是代码能力，排名第三，落后于GPT-4o和o1推理模型。

这是Gemini系列第一次在该榜单上全面领先。模型目前以预览形式开放在Google AI Studio。围绕它的讨论却颇具戏剧性：Logan Kilpatrick调侃“Gemini super duper smart”的命名方式；Sam Altman被暗指可能会迅速发布新模型抢回关注度；而教授Ethan Mollick则直接吐槽，“这些模型名字就像我硬盘里的文件名一样让人困惑”。

但Ethan也给出了一个具体、可信的评价案例：他把自己的一篇学术论文交给新Gemini审阅，要求其解读表格并评论方法论。结果是，Gemini比之前版本做得好，Claude“很接近”，但在“整体视角”上略逊一筹。这个评价点出了一个被我们迅速习以为常的事实——多款模型已经能像博士生一样阅读复杂论文。

也正是在这里，节目抛出了一个耐人寻味的解释：也许我们感觉AI进步变慢，并不是模型不行了，而是“基准测试被刷满了”。当分数进入9分区间，提升空间自然变小。

总结

这期节目给出的答案并不戏剧化，但足够真实：自我改进AI正在出现早期形态，却远未失控。无论是Claude在研究测试中逼近平均研究员，还是Gemini在多项榜单登顶，都更像是量变积累，而非质变飞跃。对企业和个人而言，主持人的建议反而很务实——与其焦虑“AI是不是慢了”，不如趁这个相对平稳的窗口，把已经极其强大的工具真正用好。因为如果历史一再重演，这种“喘息期”不会持续太久。

关键词：自我改进AI， Claude 3.5 Sonnet， Gemini， AI研究基准，大语言模型

事实核查备注： Anthropic模型：Claude 3.5 Sonnet；OpenAI模型：o1-preview；评测机构：Model Evaluation and Threat Research；测试数量：7个研究问题；Claude胜出5项；Gemini模型：Gemini x1.14；榜单：Chatbot Arena；Gemini在代码能力排名第3；涉及人物：Sam Altman、Ethan Mollick；涉及产品：GPT-4o、Gemini Pro

返回文章列表