ChatGPT 真的变笨了吗?一场集体“错觉”,还是 OpenAI 悄悄动了手脚
正在加载视频...
视频章节
过去几周,大量资深用户同时发出同一个疑问:ChatGPT,尤其是 GPT-4,是不是变笨了?代码写不对、上下文抓不住、反复道歉却不改错。就在质疑声最高涨时,OpenAI 发布了一份“提示工程最佳实践”指南——这更像是在回应争议,也引发了更大的讨论:问题到底出在模型,还是出在我们?
ChatGPT 真的变笨了吗?一场集体“错觉”,还是 OpenAI 悄悄动了手脚
过去几周,大量资深用户同时发出同一个疑问:ChatGPT,尤其是 GPT-4,是不是变笨了?代码写不对、上下文抓不住、反复道歉却不改错。就在质疑声最高涨时,OpenAI 发布了一份“提示工程最佳实践”指南——这更像是在回应争议,也引发了更大的讨论:问题到底出在模型,还是出在我们?
“它以前不会这样”:一场从程序员圈炸开的质疑
这次风波并不是普通用户的情绪宣泄,而是从一批长期、高频使用 GPT-4 的开发者和创作者中炸开的。有人直接在 Twitter 上开炮:“GPT-4 比一周前明显更蠢了。”还有人说得更狠:“他们用对齐和量化,把我的 GPT-4 阉割了。”
这些抱怨有一个共同点:不是‘回答不好’,而是‘以前能做到的事,现在做不到了’。比如代码生成——模型会无视已经给出的上下文;你指出 bug,它原样返回同一段代码,甚至制造新 bug。一个做 iOS App 的开发者直言:3 月份的 ChatGPT,几轮 prompt 就能搞定的逻辑,现在要反复拉扯十几轮。
更刺眼的是,有用户拿它去做高中英语和语文测试,5 道题错了 4 道。这已经不是“主观感受”,而是赤裸裸的功能退化。
当足够多的专业用户同时说“它变了”,这件事就不再是心理错觉那么简单。
OpenAI 的回应:模型没变,但你可以自己去“验尸”
面对铺天盖地的质疑,OpenAI 并没有正面承认“模型变差”。开发者关系团队的 Logan 给出的说法很克制,但信息量不小:API 里的模型不会在未公告的情况下改变;ChatGPT 产品端“一直在变化”;如果你怀疑质量回退,最有效的方式是——写 eval。
这句话背后,其实透露了两个关键信息。第一,ChatGPT 和 API 并不是同一条产品线,前者更像一个持续实验场;第二,OpenAI 正在把“模型是否退化”的举证责任,部分转移给社区。
Eval 是什么?简单说,就是你把一组固定任务、固定标准跑在模型上,长期对比输出质量,用数据而不是感觉说话。OpenAI 甚至为此开源了 evals 框架。
这在技术上是进步,但在情绪上更像一句冷静到近乎冷酷的回应:别吵,用指标。
也正是在这种背景下,OpenAI 几乎同步发布了一份《GPT 最佳实践指南》。时机之巧,让很多人解读出一句潜台词:‘也许不是模型变笨了,而是你没用对。’
六条“最佳实践”:官方提示工程,真的能救场吗?
这份指南总结了六个策略:写清楚指令、提供参考文本、拆分复杂任务、给模型“思考时间”、使用外部工具、系统化测试。
乍一看,都是老生常谈。但真正有价值的,不是策略本身,而是它们暴露了一个现实:ChatGPT 并不会自动变聪明,它只会在你约束得更精确时,‘看起来更聪明’。
比如“写清楚指令”。OpenAI 给的例子非常直白:不要说‘总结会议记录’,而要规定长度、格式、输出结构。更有意思的是视频里的一个补充技巧——明确教育水平。让模型用‘高中生能懂’的方式解释论文,结果往往比笼统的‘简单解释’好得多。
再比如“让模型思考”。这并不是让它真的思考,而是强迫它先展示推理路径,再给结论。否则,你得到的只是一个高度平均化的‘共识摘要’。
还有一个容易被忽略的点:外部工具。插件、代码执行、API 调用,本质上是在用确定性系统,去约束一个概率模型,减少幻觉。
这些技巧并不能证明模型没有退化,但它们确实在提醒用户一件事:随着模型被更强的对齐、更严的安全策略包裹,‘随便问问就很惊艳’的时代正在结束。
真正的分歧:我们在期待一个“产品”,还是一个“模型”?
这场争议之所以持续发酵,核心并不在于 ChatGPT 有没有变笨,而在于预期错位。
很多重度用户,把 GPT-4 当成一个稳定、可依赖、能力单调递增的“工具”。但在 OpenAI 眼里,ChatGPT 更像一个不断被调校的“界面层”:系统 prompt 在变,安全策略在变,推理成本和速度也在被重新平衡。
量化、更快的推理、更多用户同时在线——这些工程选择,都可能在边缘场景里,侵蚀模型表现。而对齐和 RLHF,则可能让模型在‘不确定时选择保守’,看起来就像‘变蠢’。
换句话说,它也许没有退化,只是更不像一个不受约束的天才实习生了。
而 OpenAI 推出提示工程指南,本质上是在重新划分责任边界:模型提供能力上限,结果好坏,越来越取决于你怎么用。
总结
这件事对 AI 从业者的真正启发,不是“要不要继续用 ChatGPT”,而是你是否还停留在把它当黑盒的阶段。模型是否退化,单靠感觉已经不够;你需要 eval、需要可复现的任务、需要把 prompt 当成接口而不是随口一问。
如果你觉得它变笨了,有两种可能:一是产品确实在权衡中牺牲了部分能力;二是你的用法,已经跟不上模型被重新约束后的形态。下一阶段真正拉开差距的,不是谁先用上 GPT-4,而是谁更早把“如何和模型协作”变成一门工程能力。
一个值得思考的问题是:当模型不再无条件取悦你时,你是否已经准备好,成为那个更专业的提问者?
关键词: ChatGPT, GPT-4, 提示工程, OpenAI, 模型对齐
事实核查备注: 需要核查:1)视频发布时间为 2023-06-07;2)相关推文涉及 Jason De Mayo、DT Deeper Thrill、Shannon Sands 等用户名的准确拼写;3)OpenAI 开发者关系成员 Logan 关于模型不变的原话表述;4)OpenAI 发布 GPT Best Practices 指南的时间点。