OpenAI把250名医生拉进模型训练,才敢让AI碰医疗
正在加载视频...
视频章节
很多人以为,AI进医疗靠的是更大的模型、更长的上下文。但在这期 OpenAI 官方播客里,他们反复强调的却是另一件事:如果没有成百上千名真实医生深度参与,模型连上线资格都没有。这是一套和主流 AI 叙事完全不同的医疗 AI 路线。
OpenAI把250名医生拉进模型训练,才敢让AI碰医疗
很多人以为,AI进医疗靠的是更大的模型、更长的上下文。但在这期 OpenAI 官方播客里,他们反复强调的却是另一件事:如果没有成百上千名真实医生深度参与,模型连上线资格都没有。这是一套和主流 AI 叙事完全不同的医疗 AI 路线。
最反直觉的一点:医疗AI不是“先模型、再应用”
在这期播客一开始,OpenAI 健康负责人 Nate Gross 和健康 AI 研究负责人 Karan Singhal 就抛出一个让很多 AI 从业者不太舒服的事实:医疗不是一个可以“模型先跑起来,问题上线再修”的领域。
Karan 直说,医疗是一个“high-stakes domain”。一条错误建议,代价可能不是点击率下降,而是真实的健康风险。所以他们在医疗上采取的是 evaluation-first 的开发方式——不是模型训完再想怎么评测,而是从一开始就围绕“如何评估安全性和有效性”来设计模型。
更反直觉的是,这套评估体系不是几个研究员拍脑袋定的,而是和大约 250 名医生一起完成的数据生成、任务定义和打分标准。不是象征性顾问,而是贯穿模型训练全流程。OpenAI 之所以在健康基准测试中表现突出,他们自己给出的答案很简单:医生不是外部用户,而是模型的共同设计者。
为什么是这两个人,把AGI理想带进医院系统
Nate Gross 的经历,本身就解释了为什么 OpenAI 会用这样一条“慢路线”切入医疗。
他最早对医疗的兴趣并不是技术,而是健康政策和值导向医疗。在 Emory 医学院学习、在亚特兰大的 Grady Hospital 工作,让他亲眼看到一个现实:医疗系统高度碎片化、技术陈旧,和消费级科技产品几乎不在一个时代。很多药物、技术明明存在,却无法真正触达患者,价值被系统结构消耗掉了。
而 Karan Singhal 则是另一条路径。他从一开始就对“智能”本身着迷,相信通用人工智能的可能性,同时也高度关注 AI 安全和正向社会影响。在他看来,医疗是最有意义、也最具挑战性的 AGI 应用场景之一——因为这里不允许“差不多就行”。
两条路径在 OpenAI 健康团队交汇,形成了一个明确共识:如果 AI 真要“造福全人类”,医疗是绕不开的一站,但前提是足够克制。
ChatGPT Health 背后,是一套被低估的安全工程
外界看到的,是用户越来越频繁地在 ChatGPT 里询问健康问题;OpenAI 内部看到的,则是一个必须被正面回应的需求洪流。
播客中提到,健康相关问题在用户侧有着非常强烈的自然需求。这也是 ChatGPT Health 出现的背景。但 Nate Gross 特别强调了一点:医疗场景下,安全和隐私不是“功能之一”,而是产品存在的前提。
这意味着什么?意味着模型回答必须尽量 grounded 在最新的医学指南上,必须能识别不确定性,必须考虑地区差异,甚至要避免在信息不足时给出“看似确定”的建议。
Karan 提到,他们为此构建了 HealthBench 这样的评测体系,用多维指标来衡量模型表现,而不是单一准确率。模型是否知道什么时候该说“我不确定”,本身就是一个关键能力。对于习惯追求“更强输出”的 AI 团队来说,这是一种思维反转。
从内罗毕到诊室:模型部署后的世界更复杂
真正拉开差距的,不是实验室里的 benchmark,而是模型部署之后。
播客里提到的内罗毕临床协作研究,是一个典型案例。在资源有限的环境中,AI 临床助手更像是一张“安全网”,而不是替代医生的角色。它帮助医生处理信息、提升决策质量,但始终处在放大器的位置。
Karan 还谈到一个容易被忽视的趋势:随着智能成本下降,多模态数据整合成为可能,医疗 AI 不再只读文本,而是逐步融合影像、可穿戴设备、生物传感器数据。这让“零到一”的新能力成为现实,但也让部署后的监控和反馈变得更加重要。
OpenAI 的态度很明确:模型上线不是终点,而是新一轮评估和修正的开始。
“抬地板、扫地、抬天花板”:AI在医疗里的真实价值
在所有技术细节之外,Nate Gross 用一句非常工程化、却极其精准的话,总结了 AI 在医疗里的三层价值。
第一,raise the floor:让最基础的医疗服务不再那么参差不齐。
第二,do the floor-sweeping:把大量消耗医生时间、但不需要高阶判断的工作交给 AI。
第三,raise the ceiling:让顶尖医生和研究者,能在更大的影响范围内发挥能力。
这不是“AI 取代医生”的叙事,而是“AI 放大医生”的现实路径。播客最后提到的患者反馈、护理者故事、以及少数近乎奇迹的案例,反复印证了这一点。
总结
如果你是 AI 从业者,这期播客给出的最大提醒是:真正重要的应用场景,往往不会奖励最快上线的人,而是奖励最懂边界的人。医疗 AI 的竞争力,不只来自模型参数,而来自评估体系、医生协作、部署反馈和长期信任建设。下一波机会,可能不在“我能不能做”,而在“我敢不敢慢下来,把事情做对”。
关键词: OpenAI, 医疗AI, ChatGPT Health, AI安全, 大语言模型
事实核查备注: 需要核查:播客发布时间是否为2026-03-16;参与医生数量约250人的具体表述;HealthBench的正式名称和定位;内罗毕临床协作研究的具体范围和结论;ChatGPT Health是否为官方产品命名。