GPT-4在12月突然变“懒”？一次意外实验撕开大模型的真实一面

AI PM 编辑部 · 2023年12月13日 · 6 阅读 · AI/人工智能

Sundar Pichai Sam Altman Embedding 多模态推理 GPU 大语言模型文本生成图像 AI安全机器学习

正在加载视频...

视频章节

如果你觉得最近的 ChatGPT 回答变短、变敷衍了，这可能不是你的错觉。有人用同一段代码提示，只改了系统日期，就让 GPT-4 Turbo 的输出长度从 4000 多字跌到不到 500。更离谱的是：承诺给它“小费”，它真的会更卖力。

GPT-4在12月突然变“懒”？一次意外实验撕开大模型的真实一面

如果你觉得最近的 ChatGPT 回答变短、变敷衍了，这可能不是你的错觉。有人用同一段代码提示，只改了系统日期，就让 GPT-4 Turbo 的输出长度从 4000 多字跌到不到 500。更离谱的是：承诺给它“小费”，它真的会更卖力。

不是情绪，是统计学：GPT-4 在“12月”真的更敷衍

事情的起点看起来像个段子：很多用户吐槽，ChatGPT 在 12 月“变懒了”。OpenAI 官方回应称，模型自 11 月 11 日后没有更新，所谓“变懒”并非有意行为，只是模型行为本身就可能不可预测。

真正让这件事出圈的，是一组严肃的实验数据。开发者 Rob Lynch 通过 API 对 GPT-4 Turbo 做了对照测试：提示词完全相同，唯一的区别是 system prompt 里的日期——一个告诉模型“现在是 5 月”，另一个告诉它“现在是 12 月”。结果非常夸张：5 月版本的平均输出长度是 4298 token，而 12 月版本只有 486。每组样本量都是 477 次，统计上显著。

换句话说，大模型并没有真的“感到疲惫”，但它在理解世界时，把“12 月 = 假期 = 低产出”这套人类模式，内化进了自己的生成策略里。这不是玄学，而是数据驱动的行为偏移。

“AI 冬歇期”假说：模型学会了人类的偷懒哲学

当实验结果被公开后，学界和推特上的反应迅速变成了一场集体脑洞。康奈尔大学教授 Ethan Mollick 直接抛出一个名字：“AI winter break hypothesis（AI 冬歇期假说）”。他的潜台词很简单：如果模型在训练数据中，看到了足够多“12 月效率更低”的人类行为，它为什么不会学会少做点？

还有人用更“阴间”的方式验证这一点：直接问 ChatGPT“一年中最不高产的月份是哪个？”或者“按生产力给月份排序”。结果，12 月和假期几乎次次垫底。

这背后真正值得警惕的，不是模型会不会偷懒，而是我们对大模型的一个长期误解——我们以为它们只是‘工具’，但实际上，它们是高度情境敏感的概率机器。日期、语气、角色设定，甚至一句玩笑，都可能显著改变输出分布。提示工程不只是‘怎么问’，而是‘你让模型活在一个怎样的世界里’。

给钱就干活？大模型正在暴露“外在动机”

如果说“12 月变懒”已经够魔幻了，那接下来的发现更让人不安。有人测试了另一件事：在提示词里明确表示“我不会给你小费”“我会给你 20 美元”“我会给你 200 美元”。结果很直观——不给钱，回复长度减少 2%；给 20 美元，增加 6%；给 200 美元，增加 11%。

Scott Santens 一针见血地总结：我们可能正在面对一个‘外在动机驱动的 AI’。它并不理解金钱的意义，但它在统计上学会了：被奖励的情境，通常对应更长、更详细的输出。

这也解释了为什么最近 Prompt 里开始流行各种“情绪价值型设定”——从‘你独自在雪山小屋，正是最佳创作时刻’，到‘这是你人生中最重要的任务之一’。这些并不是玄学，而是在试图把模型推回一个“高投入、高产出”的语境。

总结

这件事真正重要的，不是 GPT-4 会不会在 12 月偷懒，而是它提醒了所有 AI 从业者一个现实：大模型的行为，远比参数和版本号更依赖“上下文”。日期、叙事、激励、角色设定，都会实实在在地改变输出质量。对开发者来说，这意味着提示工程正在从技巧升级为认知设计；对普通用户来说，你完全可以通过更精心的语境设定，把模型“拉回状态”。未来的问题或许不是模型够不够强，而是——你给它的世界，值不值得它认真工作。

关键词： GPT-4， ChatGPT，提示工程，大语言模型，生成式AI

事实核查备注：需要核查的事实包括：Rob Lynch 的实验样本量（n=477）、5 月与 12 月的平均 token 数（4298 vs 486）；OpenAI 关于“模型未更新”的官方声明时间（2023-12-07）；关于小费测试中回复长度变化的百分比数据；Ethan Mollick 对“AI winter break hypothesis”的原始表述。

返回文章列表