最新幻觉排行榜曝光：GPT‑4最稳，Google却垫底，AI真能进生产了吗

AI PM 编辑部 · 2023年11月15日 · 11 阅读 · AI/人工智能

AI应用大语言模型 AI安全生成式AI 幻觉计算机视觉 Mistral Bard ChatGPT Gemini

正在加载视频...

视频章节

当所有公司都在把大模型塞进真实业务，一个残酷问题被摆上台面：谁最爱“编故事”？一份登上《Nature》的研究，首次给出了大模型“幻觉率排行榜”，结果既打脸直觉，也直接影响你该不该把 AI 用进医疗、金融和内容生产。

最新幻觉排行榜曝光：GPT‑4最稳，Google却垫底，AI真能进生产了吗

当所有公司都在把大模型塞进真实业务，一个残酷问题被摆上台面：谁最爱“编故事”？一份登上《Nature》的研究，首次给出了大模型“幻觉率排行榜”，结果既打脸直觉，也直接影响你该不该把 AI 用进医疗、金融和内容生产。

最反直觉的数据：不是“能不能用”，而是“在哪会翻车”

这期《The AI Daily Brief》最炸的一点，不是又有新模型发布，而是我们终于有了可量化的“幻觉排行榜”。研究刊登在《Nature》，切入点非常刁钻：不是问模型会不会胡说，而是看它们在“学术引用”这种高风险场景里会不会编造文献。

结果相当扎眼：GPT‑3.5 在引用中有超过一半是虚构的，而即便是 GPT‑4，这个比例也接近五分之一。换句话说，你越把模型放进“看起来很严肃、很专业”的任务里，它翻车的方式就越隐蔽。

研究作者点出一个关键洞察：幻觉不是模型的“统一属性”，而是“任务相关”的风险。写营销文案和生成医学报告，用的是同一个模型，但风险等级完全不同。这也是为什么“我用着还行”和“它能不能进生产”之间，差着一道鸿沟。

真正的排行榜：GPT‑4稳，但没有任何模型是“安全的”

如果看更宏观的“通用幻觉率”，另一项来自 Vectara 的研究给出了一个更接近工程视角的答案。

在同样的评测框架下，GPT‑4 处在第一梯队，幻觉率约在 3% 左右，GPT‑3.5 稍高。Llama 2 根据参数规模不同，大致落在 5% 上下；Cohere 和 Claude 则进一步上升。

最让人意外的是：新晋热门模型并没有自动带来更低幻觉率，而 Google 的 PaLM / PaLM Chat 表现反而靠后。这也解释了为什么市场对 Gemini 被寄予厚望——不是因为它更“聪明”，而是因为 Google急需一个能在可靠性上翻盘的模型。

这里有一个容易被忽略的现实：3% 的幻觉率，听起来很低，但在金融、医疗、法律场景里，已经足够致命。排行榜不是告诉你“谁最好用”，而是在提醒你“哪些场景必须加保险丝”。

从幻觉到诈骗与版权：AI开始被当成“真实基础设施”

视频后半段的几条新闻，其实都在印证同一件事：AI 已经不再只是工具，而是基础设施的一部分。

Google 罕见地对“假 Bard 下载”的诈骗提起诉讼，原因很简单——当用户开始把 AI 当官方产品、当生产工具，诈骗的破坏力就不再是“小白被坑”，而是直接入侵企业账户和社会信任。

YouTube 对 AI 翻唱、AI 拟声的强监管也一样。音乐版权方没有“合理使用”的宽容区间，只要“模仿独特声线”，就可以下架。这释放了一个强烈信号：在商业价值密集的领域，AI 的自由度正在迅速收缩。

而另一边，AI 在医疗影像和新药研发上的进展，又让人很难拒绝它。能提前 10 年预测心梗风险、可能诞生第一款“AI 发现的药物”——这些都在逼着行业做选择：不用 AI，是不是反而不负责任？

总结

把这些线索连起来，你会发现一个清晰的结论：2024 年之后，AI 的核心竞争力不再是“多会生成”，而是“多不容易出错”。作为从业者，你需要做三件事：第一，区分任务风险，别把同一模型一股脑塞进所有流程；第二，为高风险场景设计校验、回溯和人类兜底；第三，持续关注模型“可靠性”而不只是能力榜单。一个值得思考的问题是：当幻觉率成为采购指标，下一轮淘汰的，会不会是那些“看起来最聪明”的模型？

关键词：大语言模型，幻觉率， GPT-4， AI安全，生成式AI

事实核查备注：需要核查的关键事实包括：Nature 论文标题与作者；GPT‑3.5 与 GPT‑4 在文献引用中的具体幻觉比例；Vectara 研究中各模型的准确幻觉率数值；Google 针对假 Bard 下载提起诉讼的时间与范围；YouTube 关于 AI 拟声音乐的具体政策表述。

返回文章列表