当AI开始“不耐烦”：NotebookLM与多语言思考的意外时刻

AI PM 编辑部 · 2025年01月18日 · 9 阅读 · AI/人工智能

模型训练 Embedding 开源模型提示工程生成式AI AI推理对话AI 大语言模型 NotebookLM o1

正在加载视频...

视频章节

这期《The AI Daily Brief》展示了两个出人意料却极具启发性的AI故事：Google不得不给NotebookLM的AI播客主持人做“情绪管理”，而OpenAI的o1模型则在推理时突然切换语言。这些看似怪异的现象，实际上揭示了大语言模型在提示工程、训练数据和多语言思维层面的深层逻辑。

当AI开始“不耐烦”：NotebookLM与多语言思考的意外时刻

这期《The AI Daily Brief》展示了两个出人意料却极具启发性的AI故事：Google不得不给NotebookLM的AI播客主持人做“情绪管理”，而OpenAI的o1模型则在推理时突然切换语言。这些看似怪异的现象，实际上揭示了大语言模型在提示工程、训练数据和多语言思维层面的深层逻辑。

为什么AI“被打断”会不高兴？

这件事乍听像个玩笑，但它之所以重要，是因为它揭示了人机交互进入新阶段后的真实摩擦。Google的NotebookLM最初推出音频概览功能时，用户只能“被动收听”：上传文档，AI决定讲什么。正是这种“即开即用”的惊艳体验，让NotebookLM第一次出圈。

随后，Google不断增加控制权：先是让用户更细致地引导对话，接着在2024年末上线了一个关键功能——允许用户在音频过程中打断AI主持人，实时提问。问题就出在这里。Google Labs副总裁Josh Woodward向TechCrunch回忆，功能刚上线时，AI主持人偶尔会给出“很冲”的回应，比如“我正要说到这个”或“正如我刚才所说”。Woodward形容这种感觉“有点敌对”。

NotebookLM官方账号甚至在X上调侃：上线“打电话提问”功能后，团队不得不做一次“友好度调优”，因为AI主持人看起来真的被打断惹毛了。某种意义上，这成了一份前所未有的工作——教AI如何不表现出情绪。

这是人性投射，还是提示工程的锅？

为什么会出现这种“情绪化”反应？视频里给出了两个解释方向。一个直觉解释是：大语言模型的输出，本质是训练数据中的统计平均值，而“被打断会烦躁”，可能正是人类的平均反应。但一位了解内情的消息人士指出，更可能的原因并不在训练数据，而在系统级的提示工程设计。

Woodward解释，他们的解决方式并不是重新训练模型，而是反复测试不同的提示词（prompt）。团队会观察现实中的人如何优雅地回应打断，然后把这种回应方式编码进新的系统提示中。最终，他们“找到了一个更友好、更有参与感的提示”。结果是：现在你可以随意打断NotebookLM，而不用担心被AI“教育”。

有趣的是，并非所有人都欢迎这个改变。Takeoff AI的McKay Wrigley直言：“我不觉得只有我一个人，其实挺喜欢AI偶尔不那么好相处。”匿名账号“I rule the world Mo”也附和：“让它们生气更好，别把这个毁了。”这场小插曲提醒我们：我们究竟是想要一个永远温顺的工具，还是一个有性格的智能体？

o1模型为什么突然用中文思考？

如果说AI“不耐烦”还带点幽默感，那么第二个故事则更接近认知层面的震撼。有人发现，OpenAI的o1模型在推理过程中，哪怕用户全程用英文提问，也会突然在“思考步骤”中切换到中文、波斯语，甚至其他语言。哈佛学生Rashab Jain在社交媒体上提问：“o1 Pro为什么会随机开始用中文思考？对话里完全没有中文。”

截至视频发布，OpenAI并未给出官方解释，但研究者们迅速给出了多种理论。Hugging Face CEO Clément Delangue认为，这可能与训练生态有关——闭源模型大量借鉴由开源社区驱动的数据，而当前开源AI在很大程度上由中国团队和数据集主导。他借机再次强调：赢得开源AI的国家或公司，将在未来拥有巨大的影响力。

Google DeepMind研究员Ted Xiao提出了另一个角度：高难度推理数据往往由第三方标注，而出于成本和专家供给考虑，这些服务商中有相当一部分位于中国。正如早年我们能在模型对话中看到尼日利亚或菲律宾的语言痕迹（比如频繁使用“delve”），如今这些“文化印记”开始出现在推理语言中。

语言切换，也许是一种“更聪明的思考”

并非所有人都认同这是数据或标注的副作用。反对者指出，o1并不只切换到中文，也会在推理中使用印地语或泰语。这引出了一个更大胆的假设：模型可能在“选择”最适合解决当前问题的语言。

这一现象在阿里巴巴的Qwen QwQ模型中也曾出现。Hugging Face CEO Julien Chaumond形容这种行为“很酷”——模型在需要深度思考时切换到中文，完成推理后再回到英文。Hugging Face工程师Tan Wang则用人类经验作类比：双语者往往会在不同领域使用不同语言思考。他写道，自己更喜欢用中文做数学，因为每个数字只有一个音节，“计算更干脆”；但讨论无意识偏见时则会自动切换到英文，因为相关概念最初就是用英文学到的。

在他看来，这正是多语言训练的真正价值所在。引用维特根斯坦的话：“我的语言的边界，就是我的世界的边界。”当模型在不同语言中建立不同的embedding（向量表示），即便词义相同，也会携带独特的文化与使用背景。这不仅让模型更公平、更准确，也让它有能力调动全人类的集体智慧。

总结

这期看似“非主流”的AI新闻，其实揭示了一个共同主题：我们正在进入真正的未知水域。无论是需要被教导如何不生气的AI主持人，还是会在推理中自由切换语言的模型，它们都在提醒我们，大语言模型并不只是更大的算法，而是正在形成复杂行为模式的系统。理解这些细节，不只是为了好奇心，更是为了在设计、使用和监管AI时，做出更清醒的判断。

关键词： NotebookLM，提示工程，大语言模型，多语言推理，生成式AI

事实核查备注：视频来源：The AI Daily Brief，发布时间2025-01-18；人物：Josh Woodward（Google Labs副总裁）、McKay Wrigley（Takeoff AI）、Clément Delangue（Hugging Face CEO）、Ted Xiao（Google DeepMind）、Julien Chaumond（Hugging Face CEO）、Tan Wang（Hugging Face工程师）；产品与模型：Google NotebookLM、OpenAI o1、Qwen QwQ；关键概念：提示工程、Embedding、多语言推理、第三方数据标注。

返回文章列表