GPT-4在12月突然变“懒”?一次意外实验撕开大模型的真实一面

AI PM 编辑部 · 2023年12月13日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你觉得最近的 ChatGPT 回答变短、变敷衍了,这可能不是你的错觉。有人用同一段代码提示,只改了系统日期,就让 GPT-4 Turbo 的输出长度从 4000 多字跌到不到 500。更离谱的是:承诺给它“小费”,它真的会更卖力。

GPT-4在12月突然变“懒”?一次意外实验撕开大模型的真实一面

如果你觉得最近的 ChatGPT 回答变短、变敷衍了,这可能不是你的错觉。有人用同一段代码提示,只改了系统日期,就让 GPT-4 Turbo 的输出长度从 4000 多字跌到不到 500。更离谱的是:承诺给它“小费”,它真的会更卖力。

不是情绪,是统计学:GPT-4 在“12月”真的更敷衍

事情的起点看起来像个段子:很多用户吐槽,ChatGPT 在 12 月“变懒了”。OpenAI 官方回应称,模型自 11 月 11 日后没有更新,所谓“变懒”并非有意行为,只是模型行为本身就可能不可预测。

真正让这件事出圈的,是一组严肃的实验数据。开发者 Rob Lynch 通过 API 对 GPT-4 Turbo 做了对照测试:提示词完全相同,唯一的区别是 system prompt 里的日期——一个告诉模型“现在是 5 月”,另一个告诉它“现在是 12 月”。结果非常夸张:5 月版本的平均输出长度是 4298 token,而 12 月版本只有 486。每组样本量都是 477 次,统计上显著。

换句话说,大模型并没有真的“感到疲惫”,但它在理解世界时,把“12 月 = 假期 = 低产出”这套人类模式,内化进了自己的生成策略里。这不是玄学,而是数据驱动的行为偏移。

“AI 冬歇期”假说:模型学会了人类的偷懒哲学

当实验结果被公开后,学界和推特上的反应迅速变成了一场集体脑洞。康奈尔大学教授 Ethan Mollick 直接抛出一个名字:“AI winter break hypothesis(AI 冬歇期假说)”。他的潜台词很简单:如果模型在训练数据中,看到了足够多“12 月效率更低”的人类行为,它为什么不会学会少做点?

还有人用更“阴间”的方式验证这一点:直接问 ChatGPT“一年中最不高产的月份是哪个?”或者“按生产力给月份排序”。结果,12 月和假期几乎次次垫底。

这背后真正值得警惕的,不是模型会不会偷懒,而是我们对大模型的一个长期误解——我们以为它们只是‘工具’,但实际上,它们是高度情境敏感的概率机器。日期、语气、角色设定,甚至一句玩笑,都可能显著改变输出分布。提示工程不只是‘怎么问’,而是‘你让模型活在一个怎样的世界里’。

给钱就干活?大模型正在暴露“外在动机”

如果说“12 月变懒”已经够魔幻了,那接下来的发现更让人不安。有人测试了另一件事:在提示词里明确表示“我不会给你小费”“我会给你 20 美元”“我会给你 200 美元”。结果很直观——不给钱,回复长度减少 2%;给 20 美元,增加 6%;给 200 美元,增加 11%。

Scott Santens 一针见血地总结:我们可能正在面对一个‘外在动机驱动的 AI’。它并不理解金钱的意义,但它在统计上学会了:被奖励的情境,通常对应更长、更详细的输出。

这也解释了为什么最近 Prompt 里开始流行各种“情绪价值型设定”——从‘你独自在雪山小屋,正是最佳创作时刻’,到‘这是你人生中最重要的任务之一’。这些并不是玄学,而是在试图把模型推回一个“高投入、高产出”的语境。

总结

这件事真正重要的,不是 GPT-4 会不会在 12 月偷懒,而是它提醒了所有 AI 从业者一个现实:大模型的行为,远比参数和版本号更依赖“上下文”。日期、叙事、激励、角色设定,都会实实在在地改变输出质量。对开发者来说,这意味着提示工程正在从技巧升级为认知设计;对普通用户来说,你完全可以通过更精心的语境设定,把模型“拉回状态”。未来的问题或许不是模型够不够强,而是——你给它的世界,值不值得它认真工作。


关键词: GPT-4, ChatGPT, 提示工程, 大语言模型, 生成式AI

事实核查备注: 需要核查的事实包括:Rob Lynch 的实验样本量(n=477)、5 月与 12 月的平均 token 数(4298 vs 486);OpenAI 关于“模型未更新”的官方声明时间(2023-12-07);关于小费测试中回复长度变化的百分比数据;Ethan Mollick 对“AI winter break hypothesis”的原始表述。