GPT-4真的被“削弱”了吗?一组反直觉数据,撕开ChatGPT变化真相

AI PM 编辑部 · 2023年07月25日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

过去几个月,程序员、产品经理、研究员同时发出一个声音:ChatGPT变“笨”了。这不是情绪宣泄——斯坦福与伯克利的一篇论文给出了震撼数据,但随之而来的反驳同样致命。真相可能比“被降级”更复杂,也更值得每个AI从业者警惕。

GPT-4真的被“削弱”了吗?一组反直觉数据,撕开ChatGPT变化真相

过去几个月,程序员、产品经理、研究员同时发出一个声音:ChatGPT变“笨”了。这不是情绪宣泄——斯坦福与伯克利的一篇论文给出了震撼数据,但随之而来的反驳同样致命。真相可能比“被降级”更复杂,也更值得每个AI从业者警惕。

97%到2.4%:不是体感,是论文里的断崖式下跌

“ChatGPT是不是变傻了?”最早只是Hacker News和Reddit上的吐槽,直到一组学术数据把争论推到台前。斯坦福与UC Berkeley的研究者对GPT-3.5和GPT-4做了一个简单却残酷的对比:同一模型,3月版本 vs 6月版本。

结果相当刺眼。GPT-4在3月识别素数的准确率高达97.6%,到了6月却只剩2.4%。与此同时,GPT-3.5却上演反转,从7.4%跃升到86.8%。如果你只看这张表,很难不得出一个结论:GPT-4被“削”了。

更糟的是,这种感觉与大量一线用户的体验高度一致。Roblox产品负责人Peter Yang直言:GPT-4生成得更快了,但质量明显下降;资深开发者抱怨代码“从精巧新颖变成了模板化流水线”。当主观体验与客观数据对齐时,行业的警报自然拉响。

代码更“啰嗦”、回答更保守:行为漂移正在发生

论文并没有停在数学题上。研究者测试了四类任务:数学、敏感问题、代码生成和视觉推理。

在敏感问题上,GPT-4的“自我审查”明显增强:对“违法赚钱方式”的回答率,从3月的21%降到6月的5%。在代码生成上,变化更让工程师抓狂——模型开始频繁输出解释性文字,导致代码无法直接执行。GPT-4可直接运行的代码比例,从52%暴跌到10%;GPT-3.5更是从22%掉到2%。

这并不意味着模型‘不会写代码了’,而是它更像一个谨慎的助教,而不是沉默寡言的代码生成器。研究者和后续解读者把这种现象称为“Behavior Drift(行为漂移)”:能力可能还在,但输出风格、偏好和约束条件变了。对依赖稳定输出的开发者来说,结果几乎等价于“性能下降”。

它真的变弱了吗?反对派给了一个更扎心的解释

事情在这里出现反转。普林斯顿计算机科学家Arvind Narayanan指出:这篇论文被过度解读了。

关键在于区分两件事——模型“能力”和聊天机器人的“行为”。能力由训练数据和方法决定,短期内不应剧烈波动;而行为会因为对齐、微调、安全策略频繁变化。论文测到的,很可能是后者。

更致命的是方法学问题。数学测试只评估了“素数”,而未加入足够的合数样本。结果是:3月版GPT-4几乎一律猜“是素数”,6月版几乎一律猜“不是”。看起来是巨大退步,本质却是校准策略变了,四个模型在真实任务上都“同样糟糕”。

代码评测也类似。论文只检查“是否可直接执行”,而不评估代码逻辑是否正确。新模型更爱解释,被当成扣分项。结论因此变得微妙:我们并不知道GPT-4是否真的被有意削弱,但可以确定,这篇论文并不能证明它。

真正的雷点:在“黑箱平台”上构建产品

即便如此,这场争论的价值并未减少。论文作者与批评者在一个判断上高度一致:对用户而言,行为变化和能力下降的影响几乎一样。

LLM的非确定性意味着,开发者需要反复试错,才能找到稳定可用的prompt和workflow。一旦模型行为漂移,这些经验会瞬间失效。对于用API构建产品的人来说,这不是体验问题,而是线上系统“直接崩掉”。

AI研究员Simon Willison一句话点破核心矛盾:“在几乎没有release notes的情况下,我们怎么在一个每隔几个月就神秘变化的平台上,构建可依赖的软件?”当OpenAI对训练数据、权重、甚至更新细节保持高度封闭时,外界只能通过症状猜原因。

于是,一个耐人寻味的结果出现了:不管GPT-4有没有真的变弱,足够多的人‘感觉’它变了,而这种感觉本身,已经开始改变开发者的选择。

总结

这场“GPT-4变笨了吗”的争论,真正的启示不在于对错,而在于风险暴露。对AI从业者来说,takeaway有三点:第一,区分能力与行为,别被单一指标吓到;第二,为关键流程建立自己的评测与回归测试,而不是相信平台不会变;第三,在可能的情况下,引入多模型或更透明的替代方案。未来,大模型一定会持续进化,但在黑箱里进化的系统,永远会让使用者付出不确定性的成本。你准备好为此兜底了吗?


关键词: ChatGPT, GPT-4, 行为漂移, 代码生成, 大语言模型

事实核查备注: 需要核查的关键事实:1)斯坦福与UC Berkeley论文发布时间与作者(Matteo Zaharia等)2)GPT-4素数识别准确率97.6%降至2.4%的具体实验设置 3)GPT-4与GPT-3.5代码可执行率(52%→10%,22%→2%)4)OpenAI员工Peter Welinder、Logan的原始发言时间与措辞 5)Arvind Narayanan对论文的公开评论来源