GPT-4真的被“削弱”了吗？一组反直觉数据，撕开ChatGPT变化真相

AI PM 编辑部 · 2023年07月25日 · 3 阅读 · AI/人工智能

Elon Musk 微调推理提示工程 GPU AI对齐大语言模型计算机视觉机器学习神经网络

正在加载视频...

视频章节

过去几个月，程序员、产品经理、研究员同时发出一个声音：ChatGPT变“笨”了。这不是情绪宣泄——斯坦福与伯克利的一篇论文给出了震撼数据，但随之而来的反驳同样致命。真相可能比“被降级”更复杂，也更值得每个AI从业者警惕。

GPT-4真的被“削弱”了吗？一组反直觉数据，撕开ChatGPT变化真相

过去几个月，程序员、产品经理、研究员同时发出一个声音：ChatGPT变“笨”了。这不是情绪宣泄——斯坦福与伯克利的一篇论文给出了震撼数据，但随之而来的反驳同样致命。真相可能比“被降级”更复杂，也更值得每个AI从业者警惕。

97%到2.4%：不是体感，是论文里的断崖式下跌

“ChatGPT是不是变傻了？”最早只是Hacker News和Reddit上的吐槽，直到一组学术数据把争论推到台前。斯坦福与UC Berkeley的研究者对GPT-3.5和GPT-4做了一个简单却残酷的对比：同一模型，3月版本 vs 6月版本。

结果相当刺眼。GPT-4在3月识别素数的准确率高达97.6%，到了6月却只剩2.4%。与此同时，GPT-3.5却上演反转，从7.4%跃升到86.8%。如果你只看这张表，很难不得出一个结论：GPT-4被“削”了。

更糟的是，这种感觉与大量一线用户的体验高度一致。Roblox产品负责人Peter Yang直言：GPT-4生成得更快了，但质量明显下降；资深开发者抱怨代码“从精巧新颖变成了模板化流水线”。当主观体验与客观数据对齐时，行业的警报自然拉响。

代码更“啰嗦”、回答更保守：行为漂移正在发生

论文并没有停在数学题上。研究者测试了四类任务：数学、敏感问题、代码生成和视觉推理。

在敏感问题上，GPT-4的“自我审查”明显增强：对“违法赚钱方式”的回答率，从3月的21%降到6月的5%。在代码生成上，变化更让工程师抓狂——模型开始频繁输出解释性文字，导致代码无法直接执行。GPT-4可直接运行的代码比例，从52%暴跌到10%；GPT-3.5更是从22%掉到2%。

这并不意味着模型‘不会写代码了’，而是它更像一个谨慎的助教，而不是沉默寡言的代码生成器。研究者和后续解读者把这种现象称为“Behavior Drift（行为漂移）”：能力可能还在，但输出风格、偏好和约束条件变了。对依赖稳定输出的开发者来说，结果几乎等价于“性能下降”。

它真的变弱了吗？反对派给了一个更扎心的解释

事情在这里出现反转。普林斯顿计算机科学家Arvind Narayanan指出：这篇论文被过度解读了。

关键在于区分两件事——模型“能力”和聊天机器人的“行为”。能力由训练数据和方法决定，短期内不应剧烈波动；而行为会因为对齐、微调、安全策略频繁变化。论文测到的，很可能是后者。

更致命的是方法学问题。数学测试只评估了“素数”，而未加入足够的合数样本。结果是：3月版GPT-4几乎一律猜“是素数”，6月版几乎一律猜“不是”。看起来是巨大退步，本质却是校准策略变了，四个模型在真实任务上都“同样糟糕”。

代码评测也类似。论文只检查“是否可直接执行”，而不评估代码逻辑是否正确。新模型更爱解释，被当成扣分项。结论因此变得微妙：我们并不知道GPT-4是否真的被有意削弱，但可以确定，这篇论文并不能证明它。

真正的雷点：在“黑箱平台”上构建产品

即便如此，这场争论的价值并未减少。论文作者与批评者在一个判断上高度一致：对用户而言，行为变化和能力下降的影响几乎一样。

LLM的非确定性意味着，开发者需要反复试错，才能找到稳定可用的prompt和workflow。一旦模型行为漂移，这些经验会瞬间失效。对于用API构建产品的人来说，这不是体验问题，而是线上系统“直接崩掉”。

AI研究员Simon Willison一句话点破核心矛盾：“在几乎没有release notes的情况下，我们怎么在一个每隔几个月就神秘变化的平台上，构建可依赖的软件？”当OpenAI对训练数据、权重、甚至更新细节保持高度封闭时，外界只能通过症状猜原因。

于是，一个耐人寻味的结果出现了：不管GPT-4有没有真的变弱，足够多的人‘感觉’它变了，而这种感觉本身，已经开始改变开发者的选择。

总结

这场“GPT-4变笨了吗”的争论，真正的启示不在于对错，而在于风险暴露。对AI从业者来说，takeaway有三点：第一，区分能力与行为，别被单一指标吓到；第二，为关键流程建立自己的评测与回归测试，而不是相信平台不会变；第三，在可能的情况下，引入多模型或更透明的替代方案。未来，大模型一定会持续进化，但在黑箱里进化的系统，永远会让使用者付出不确定性的成本。你准备好为此兜底了吗？

关键词： ChatGPT， GPT-4，行为漂移，代码生成，大语言模型

事实核查备注：需要核查的关键事实：1）斯坦福与UC Berkeley论文发布时间与作者（Matteo Zaharia等）2）GPT-4素数识别准确率97.6%降至2.4%的具体实验设置 3）GPT-4与GPT-3.5代码可执行率（52%→10%，22%→2%）4）OpenAI员工Peter Welinder、Logan的原始发言时间与措辞 5）Arvind Narayanan对论文的公开评论来源

返回文章列表