他们用大模型帮医生省下7分钟,却发现“跑快一点”会害人
正在加载视频...
视频章节
在 OpenAI DevDay 的舞台上,Tortus 团队抛出一个刺痛行业的事实:在医疗场景里,LLM 最大的风险不是不够聪明,而是“看起来太聪明”。一次无意的幻觉,可能直接影响患者决策。这不是一场炫技分享,而是一堂关于如何把大模型真正送进生产、还不伤人的硬核课。
他们用大模型帮医生省下7分钟,却发现“跑快一点”会害人
在 OpenAI DevDay 的舞台上,Tortus 团队抛出一个刺痛行业的事实:在医疗场景里,LLM 最大的风险不是不够聪明,而是“看起来太聪明”。一次无意的幻觉,可能直接影响患者决策。这不是一场炫技分享,而是一堂关于如何把大模型真正送进生产、还不伤人的硬核课。
7分钟的价值:为什么医生正在被电脑“榨干”
Tortus 的开场几乎没有谈模型参数,而是直接甩出数据:今天,临床医生高达 60% 的工作时间,消耗在录入数据、填表、下医嘱这些“对着电脑点鼠标”的任务上。一次普通班次,点击量能到 4000 次。结果也很直观——53% 的医生表示自己已经因为电脑工作而职业倦怠。
Tortus 的目标非常克制:不是“用 AI 取代医生”,而是每次使用他们的 LLM 应用,帮医生省下 7 分钟,让这 7 分钟回到真正的医疗判断上。正是因为这个目标足够小、足够具体,后面的所有设计都变得异常严格。
一个玩笑般的演示,暴露了 LLM 在医疗里的致命问题
现场演示看起来甚至有点搞笑:一位“患者”因为准备 OpenAI DevDay 的演讲而极度焦虑,医生随口开了个玩笑式的“透析(dialysis)”处方。Tortus 自动生成的临床文档,大部分内容都对,但悄悄多写了一条——医生给了患者对乙酰氨基酚(paracetamol)。
问题在于:医生从头到尾没说过这句话。
在普通应用里,这只是一次无伤大雅的幻觉;但在医疗场景,这就是“临床错误”。Tortus 团队直说了一句非常重的话:硅谷常说的“Move fast and break things”,在这里等同于“Move fast and break people”。
把医生重新拉回驾驶位:Block、ID 和反直觉的“慢”
Tortus 的核心设计非常反直觉:他们没有追求一个端到端、一步到位的“超级模型”,而是把整个 LLM 工作流拆成一个个 Block。
每个 Block 都明确记录:输入是什么、用的哪个模型、具体 Prompt、是否结构化输出,并生成一个唯一的 Block ID。只要改了模型或提示词,ID 就会变。
最关键的一点是:Block 之间不是靠“语义”连接,而是靠 ID 严格匹配。一旦不匹配,流程就跑不起来。
这听起来很啰嗦,但在审计和合规时,它变成了护身符——你可以精确回答:这个临床文档,是由哪一版模型、哪一次 Prompt 生成的,没有任何模糊空间。更重要的是,这套 UI 让医生自己就能搭工作流,而不是被迫排队等工程师改代码。
他们不怕慢,只怕“幻觉”:Halumi 成了最重要的指标
Tortus 给幻觉和遗漏起了一个内部名字:Halumi。他们的评估体系不追求自动化,而是承认一个现实:真正能判断医疗安全的,只有医生。
每个实验都会让多位医生人工标注:哪些是凭空生成的内容(Hallucination),哪些是漏掉的关键信息(Omission),并进一步区分“会不会影响临床结果”的重大错误。
一个极具警示意义的发现是:他们曾以为“先抽取事实、再生成信件”会更安全,结果实验数据显示,重大幻觉反而暴涨。正是这套实验框架,让他们在上线前就踩下刹车。
更聪明的是,他们在 Block 级别复用标注结果、用相同随机种子做对照实验,用最小的人力成本,换取最大程度的安全确定性。
总结
Tortus 的分享给 AI 从业者一个清醒的提醒:在高风险场景里,真正的竞争力不是模型有多新,而是你有没有一套“敢慢下来”的工程与评估体系。如果你正在做 LLM 应用,尤其是面向金融、医疗、法律,这场分享几乎是一份行动清单:把流程拆小、让领域专家进来、用实验而不是感觉做决策。未来的分水岭,很可能不是谁第一个接入新模型,而是谁最后一个还没出事故。
关键词: 大语言模型, 医疗AI, 幻觉, AI安全, OpenAI DevDay
事实核查备注: 需核查:1)7分钟节省时间的具体统计口径;2)60%临床时间用于电脑任务、4000次点击、53%倦怠的来源;3)Tortus 是否为 tauris/torus 的正式拼写;4)Halumi 是否为其内部或计划商标名称;5)DevDay 2024 的具体场次与时长。