ChatGPT 真的变笨了吗？一场集体“错觉”，还是 OpenAI 悄悄动了手脚

AI PM 编辑部 · 2023年06月07日 · 7 阅读 · AI/人工智能

人类反馈强化学习多模态模型训练 AI应用 AI推理上下文窗口开源模型 AI对齐幻觉 AI工具

正在加载视频...

视频章节

过去几周，大量资深用户同时发出同一个疑问：ChatGPT，尤其是 GPT-4，是不是变笨了？代码写不对、上下文抓不住、反复道歉却不改错。就在质疑声最高涨时，OpenAI 发布了一份“提示工程最佳实践”指南——这更像是在回应争议，也引发了更大的讨论：问题到底出在模型，还是出在我们？

ChatGPT 真的变笨了吗？一场集体“错觉”，还是 OpenAI 悄悄动了手脚

过去几周，大量资深用户同时发出同一个疑问：ChatGPT，尤其是 GPT-4，是不是变笨了？代码写不对、上下文抓不住、反复道歉却不改错。就在质疑声最高涨时，OpenAI 发布了一份“提示工程最佳实践”指南——这更像是在回应争议，也引发了更大的讨论：问题到底出在模型，还是出在我们？

“它以前不会这样”：一场从程序员圈炸开的质疑

这次风波并不是普通用户的情绪宣泄，而是从一批长期、高频使用 GPT-4 的开发者和创作者中炸开的。有人直接在 Twitter 上开炮：“GPT-4 比一周前明显更蠢了。”还有人说得更狠：“他们用对齐和量化，把我的 GPT-4 阉割了。”

这些抱怨有一个共同点：不是‘回答不好’，而是‘以前能做到的事，现在做不到了’。比如代码生成——模型会无视已经给出的上下文；你指出 bug，它原样返回同一段代码，甚至制造新 bug。一个做 iOS App 的开发者直言：3 月份的 ChatGPT，几轮 prompt 就能搞定的逻辑，现在要反复拉扯十几轮。

更刺眼的是，有用户拿它去做高中英语和语文测试，5 道题错了 4 道。这已经不是“主观感受”，而是赤裸裸的功能退化。

当足够多的专业用户同时说“它变了”，这件事就不再是心理错觉那么简单。

OpenAI 的回应：模型没变，但你可以自己去“验尸”

面对铺天盖地的质疑，OpenAI 并没有正面承认“模型变差”。开发者关系团队的 Logan 给出的说法很克制，但信息量不小：API 里的模型不会在未公告的情况下改变；ChatGPT 产品端“一直在变化”；如果你怀疑质量回退，最有效的方式是——写 eval。

这句话背后，其实透露了两个关键信息。第一，ChatGPT 和 API 并不是同一条产品线，前者更像一个持续实验场；第二，OpenAI 正在把“模型是否退化”的举证责任，部分转移给社区。

Eval 是什么？简单说，就是你把一组固定任务、固定标准跑在模型上，长期对比输出质量，用数据而不是感觉说话。OpenAI 甚至为此开源了 evals 框架。

这在技术上是进步，但在情绪上更像一句冷静到近乎冷酷的回应：别吵，用指标。

也正是在这种背景下，OpenAI 几乎同步发布了一份《GPT 最佳实践指南》。时机之巧，让很多人解读出一句潜台词：‘也许不是模型变笨了，而是你没用对。’

六条“最佳实践”：官方提示工程，真的能救场吗？

这份指南总结了六个策略：写清楚指令、提供参考文本、拆分复杂任务、给模型“思考时间”、使用外部工具、系统化测试。

乍一看，都是老生常谈。但真正有价值的，不是策略本身，而是它们暴露了一个现实：ChatGPT 并不会自动变聪明，它只会在你约束得更精确时，‘看起来更聪明’。

比如“写清楚指令”。OpenAI 给的例子非常直白：不要说‘总结会议记录’，而要规定长度、格式、输出结构。更有意思的是视频里的一个补充技巧——明确教育水平。让模型用‘高中生能懂’的方式解释论文，结果往往比笼统的‘简单解释’好得多。

再比如“让模型思考”。这并不是让它真的思考，而是强迫它先展示推理路径，再给结论。否则，你得到的只是一个高度平均化的‘共识摘要’。

还有一个容易被忽略的点：外部工具。插件、代码执行、API 调用，本质上是在用确定性系统，去约束一个概率模型，减少幻觉。

这些技巧并不能证明模型没有退化，但它们确实在提醒用户一件事：随着模型被更强的对齐、更严的安全策略包裹，‘随便问问就很惊艳’的时代正在结束。

真正的分歧：我们在期待一个“产品”，还是一个“模型”？

这场争议之所以持续发酵，核心并不在于 ChatGPT 有没有变笨，而在于预期错位。

很多重度用户，把 GPT-4 当成一个稳定、可依赖、能力单调递增的“工具”。但在 OpenAI 眼里，ChatGPT 更像一个不断被调校的“界面层”：系统 prompt 在变，安全策略在变，推理成本和速度也在被重新平衡。

量化、更快的推理、更多用户同时在线——这些工程选择，都可能在边缘场景里，侵蚀模型表现。而对齐和 RLHF，则可能让模型在‘不确定时选择保守’，看起来就像‘变蠢’。

换句话说，它也许没有退化，只是更不像一个不受约束的天才实习生了。

而 OpenAI 推出提示工程指南，本质上是在重新划分责任边界：模型提供能力上限，结果好坏，越来越取决于你怎么用。

总结

这件事对 AI 从业者的真正启发，不是“要不要继续用 ChatGPT”，而是你是否还停留在把它当黑盒的阶段。模型是否退化，单靠感觉已经不够；你需要 eval、需要可复现的任务、需要把 prompt 当成接口而不是随口一问。

如果你觉得它变笨了，有两种可能：一是产品确实在权衡中牺牲了部分能力；二是你的用法，已经跟不上模型被重新约束后的形态。下一阶段真正拉开差距的，不是谁先用上 GPT-4，而是谁更早把“如何和模型协作”变成一门工程能力。

一个值得思考的问题是：当模型不再无条件取悦你时，你是否已经准备好，成为那个更专业的提问者？

关键词： ChatGPT， GPT-4，提示工程， OpenAI，模型对齐

事实核查备注：需要核查：1）视频发布时间为 2023-06-07；2）相关推文涉及 Jason De Mayo、DT Deeper Thrill、Shannon Sands 等用户名的准确拼写；3）OpenAI 开发者关系成员 Logan 关于模型不变的原话表述；4）OpenAI 发布 GPT Best Practices 指南的时间点。

返回文章列表