最新幻觉排行榜曝光:GPT‑4最稳,Google却垫底,AI真能进生产了吗

AI PM 编辑部 · 2023年11月15日 · 11 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有公司都在把大模型塞进真实业务,一个残酷问题被摆上台面:谁最爱“编故事”?一份登上《Nature》的研究,首次给出了大模型“幻觉率排行榜”,结果既打脸直觉,也直接影响你该不该把 AI 用进医疗、金融和内容生产。

最新幻觉排行榜曝光:GPT‑4最稳,Google却垫底,AI真能进生产了吗

当所有公司都在把大模型塞进真实业务,一个残酷问题被摆上台面:谁最爱“编故事”?一份登上《Nature》的研究,首次给出了大模型“幻觉率排行榜”,结果既打脸直觉,也直接影响你该不该把 AI 用进医疗、金融和内容生产。

最反直觉的数据:不是“能不能用”,而是“在哪会翻车”

这期《The AI Daily Brief》最炸的一点,不是又有新模型发布,而是我们终于有了可量化的“幻觉排行榜”。研究刊登在《Nature》,切入点非常刁钻:不是问模型会不会胡说,而是看它们在“学术引用”这种高风险场景里会不会编造文献。

结果相当扎眼:GPT‑3.5 在引用中有超过一半是虚构的,而即便是 GPT‑4,这个比例也接近五分之一。换句话说,你越把模型放进“看起来很严肃、很专业”的任务里,它翻车的方式就越隐蔽。

研究作者点出一个关键洞察:幻觉不是模型的“统一属性”,而是“任务相关”的风险。写营销文案和生成医学报告,用的是同一个模型,但风险等级完全不同。这也是为什么“我用着还行”和“它能不能进生产”之间,差着一道鸿沟。

真正的排行榜:GPT‑4稳,但没有任何模型是“安全的”

如果看更宏观的“通用幻觉率”,另一项来自 Vectara 的研究给出了一个更接近工程视角的答案。

在同样的评测框架下,GPT‑4 处在第一梯队,幻觉率约在 3% 左右,GPT‑3.5 稍高。Llama 2 根据参数规模不同,大致落在 5% 上下;Cohere 和 Claude 则进一步上升。

最让人意外的是:新晋热门模型并没有自动带来更低幻觉率,而 Google 的 PaLM / PaLM Chat 表现反而靠后。这也解释了为什么市场对 Gemini 被寄予厚望——不是因为它更“聪明”,而是因为 Google急需一个能在可靠性上翻盘的模型。

这里有一个容易被忽略的现实:3% 的幻觉率,听起来很低,但在金融、医疗、法律场景里,已经足够致命。排行榜不是告诉你“谁最好用”,而是在提醒你“哪些场景必须加保险丝”。

从幻觉到诈骗与版权:AI开始被当成“真实基础设施”

视频后半段的几条新闻,其实都在印证同一件事:AI 已经不再只是工具,而是基础设施的一部分

Google 罕见地对“假 Bard 下载”的诈骗提起诉讼,原因很简单——当用户开始把 AI 当官方产品、当生产工具,诈骗的破坏力就不再是“小白被坑”,而是直接入侵企业账户和社会信任。

YouTube 对 AI 翻唱、AI 拟声的强监管也一样。音乐版权方没有“合理使用”的宽容区间,只要“模仿独特声线”,就可以下架。这释放了一个强烈信号:在商业价值密集的领域,AI 的自由度正在迅速收缩

而另一边,AI 在医疗影像和新药研发上的进展,又让人很难拒绝它。能提前 10 年预测心梗风险、可能诞生第一款“AI 发现的药物”——这些都在逼着行业做选择:不用 AI,是不是反而不负责任?

总结

把这些线索连起来,你会发现一个清晰的结论:2024 年之后,AI 的核心竞争力不再是“多会生成”,而是“多不容易出错”。作为从业者,你需要做三件事:第一,区分任务风险,别把同一模型一股脑塞进所有流程;第二,为高风险场景设计校验、回溯和人类兜底;第三,持续关注模型“可靠性”而不只是能力榜单。一个值得思考的问题是:当幻觉率成为采购指标,下一轮淘汰的,会不会是那些“看起来最聪明”的模型?


关键词: 大语言模型, 幻觉率, GPT-4, AI安全, 生成式AI

事实核查备注: 需要核查的关键事实包括:Nature 论文标题与作者;GPT‑3.5 与 GPT‑4 在文献引用中的具体幻觉比例;Vectara 研究中各模型的准确幻觉率数值;Google 针对假 Bard 下载提起诉讼的时间与范围;YouTube 关于 AI 拟声音乐的具体政策表述。