OpenAI把250名医生拉进模型训练，才敢让AI碰医疗

AI PM 编辑部 · 2026年03月16日 · 73 阅读 · AI/人工智能

正在加载视频...

视频章节

很多人以为，AI进医疗靠的是更大的模型、更长的上下文。但在这期 OpenAI 官方播客里，他们反复强调的却是另一件事：如果没有成百上千名真实医生深度参与，模型连上线资格都没有。这是一套和主流 AI 叙事完全不同的医疗 AI 路线。

很多人以为，AI进医疗靠的是更大的模型、更长的上下文。但在这期 OpenAI 官方播客里，他们反复强调的却是另一件事：如果没有成百上千名真实医生深度参与，模型连上线资格都没有。这是一套和主流 AI 叙事完全不同的医疗 AI 路线。

在这期播客一开始，OpenAI 健康负责人 Nate Gross 和健康 AI 研究负责人 Karan Singhal 就抛出一个让很多 AI 从业者不太舒服的事实：医疗不是一个可以“模型先跑起来，问题上线再修”的领域。

Karan 直说，医疗是一个“high-stakes domain”。一条错误建议，代价可能不是点击率下降，而是真实的健康风险。所以他们在医疗上采取的是 evaluation-first 的开发方式——不是模型训完再想怎么评测，而是从一开始就围绕“如何评估安全性和有效性”来设计模型。

更反直觉的是，这套评估体系不是几个研究员拍脑袋定的，而是和大约 250 名医生一起完成的数据生成、任务定义和打分标准。不是象征性顾问，而是贯穿模型训练全流程。OpenAI 之所以在健康基准测试中表现突出，他们自己给出的答案很简单：医生不是外部用户，而是模型的共同设计者。

Nate Gross 的经历，本身就解释了为什么 OpenAI 会用这样一条“慢路线”切入医疗。

他最早对医疗的兴趣并不是技术，而是健康政策和值导向医疗。在 Emory 医学院学习、在亚特兰大的 Grady Hospital 工作，让他亲眼看到一个现实：医疗系统高度碎片化、技术陈旧，和消费级科技产品几乎不在一个时代。很多药物、技术明明存在，却无法真正触达患者，价值被系统结构消耗掉了。

而 Karan Singhal 则是另一条路径。他从一开始就对“智能”本身着迷，相信通用人工智能的可能性，同时也高度关注 AI 安全和正向社会影响。在他看来，医疗是最有意义、也最具挑战性的 AGI 应用场景之一——因为这里不允许“差不多就行”。

两条路径在 OpenAI 健康团队交汇，形成了一个明确共识：如果 AI 真要“造福全人类”，医疗是绕不开的一站，但前提是足够克制。

外界看到的，是用户越来越频繁地在 ChatGPT 里询问健康问题；OpenAI 内部看到的，则是一个必须被正面回应的需求洪流。

播客中提到，健康相关问题在用户侧有着非常强烈的自然需求。这也是 ChatGPT Health 出现的背景。但 Nate Gross 特别强调了一点：医疗场景下，安全和隐私不是“功能之一”，而是产品存在的前提。

这意味着什么？意味着模型回答必须尽量 grounded 在最新的医学指南上，必须能识别不确定性，必须考虑地区差异，甚至要避免在信息不足时给出“看似确定”的建议。

Karan 提到，他们为此构建了 HealthBench 这样的评测体系，用多维指标来衡量模型表现，而不是单一准确率。模型是否知道什么时候该说“我不确定”，本身就是一个关键能力。对于习惯追求“更强输出”的 AI 团队来说，这是一种思维反转。

真正拉开差距的，不是实验室里的 benchmark，而是模型部署之后。

播客里提到的内罗毕临床协作研究，是一个典型案例。在资源有限的环境中，AI 临床助手更像是一张“安全网”，而不是替代医生的角色。它帮助医生处理信息、提升决策质量，但始终处在放大器的位置。

Karan 还谈到一个容易被忽视的趋势：随着智能成本下降，多模态数据整合成为可能，医疗 AI 不再只读文本，而是逐步融合影像、可穿戴设备、生物传感器数据。这让“零到一”的新能力成为现实，但也让部署后的监控和反馈变得更加重要。

OpenAI 的态度很明确：模型上线不是终点，而是新一轮评估和修正的开始。

在所有技术细节之外，Nate Gross 用一句非常工程化、却极其精准的话，总结了 AI 在医疗里的三层价值。

第一，raise the floor：让最基础的医疗服务不再那么参差不齐。
第二，do the floor-sweeping：把大量消耗医生时间、但不需要高阶判断的工作交给 AI。
第三，raise the ceiling：让顶尖医生和研究者，能在更大的影响范围内发挥能力。

这不是“AI 取代医生”的叙事，而是“AI 放大医生”的现实路径。播客最后提到的患者反馈、护理者故事、以及少数近乎奇迹的案例，反复印证了这一点。

如果你是 AI 从业者，这期播客给出的最大提醒是：真正重要的应用场景，往往不会奖励最快上线的人，而是奖励最懂边界的人。医疗 AI 的竞争力，不只来自模型参数，而来自评估体系、医生协作、部署反馈和长期信任建设。下一波机会，可能不在“我能不能做”，而在“我敢不敢慢下来，把事情做对”。

关键词： OpenAI，医疗AI， ChatGPT Health， AI安全，大语言模型

事实核查备注：需要核查：播客发布时间是否为2026-03-16；参与医生数量约250人的具体表述；HealthBench的正式名称和定位；内罗毕临床协作研究的具体范围和结论；ChatGPT Health是否为官方产品命名。