他们用大模型帮医生省下7分钟，却发现“跑快一点”会害人

AI PM 编辑部 · 2024年12月17日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

在 OpenAI DevDay 的舞台上，Tortus 团队抛出一个刺痛行业的事实：在医疗场景里，LLM 最大的风险不是不够聪明，而是“看起来太聪明”。一次无意的幻觉，可能直接影响患者决策。这不是一场炫技分享，而是一堂关于如何把大模型真正送进生产、还不伤人的硬核课。

他们用大模型帮医生省下7分钟，却发现“跑快一点”会害人

在 OpenAI DevDay 的舞台上，Tortus 团队抛出一个刺痛行业的事实：在医疗场景里，LLM 最大的风险不是不够聪明，而是“看起来太聪明”。一次无意的幻觉，可能直接影响患者决策。这不是一场炫技分享，而是一堂关于如何把大模型真正送进生产、还不伤人的硬核课。

7分钟的价值：为什么医生正在被电脑“榨干”

Tortus 的开场几乎没有谈模型参数，而是直接甩出数据：今天，临床医生高达 60% 的工作时间，消耗在录入数据、填表、下医嘱这些“对着电脑点鼠标”的任务上。一次普通班次，点击量能到 4000 次。结果也很直观——53% 的医生表示自己已经因为电脑工作而职业倦怠。

Tortus 的目标非常克制：不是“用 AI 取代医生”，而是每次使用他们的 LLM 应用，帮医生省下 7 分钟，让这 7 分钟回到真正的医疗判断上。正是因为这个目标足够小、足够具体，后面的所有设计都变得异常严格。

一个玩笑般的演示，暴露了 LLM 在医疗里的致命问题

现场演示看起来甚至有点搞笑：一位“患者”因为准备 OpenAI DevDay 的演讲而极度焦虑，医生随口开了个玩笑式的“透析（dialysis）”处方。Tortus 自动生成的临床文档，大部分内容都对，但悄悄多写了一条——医生给了患者对乙酰氨基酚（paracetamol）。

问题在于：医生从头到尾没说过这句话。

在普通应用里，这只是一次无伤大雅的幻觉；但在医疗场景，这就是“临床错误”。Tortus 团队直说了一句非常重的话：硅谷常说的“Move fast and break things”，在这里等同于“Move fast and break people”。

把医生重新拉回驾驶位：Block、ID 和反直觉的“慢”

Tortus 的核心设计非常反直觉：他们没有追求一个端到端、一步到位的“超级模型”，而是把整个 LLM 工作流拆成一个个 Block。

每个 Block 都明确记录：输入是什么、用的哪个模型、具体 Prompt、是否结构化输出，并生成一个唯一的 Block ID。只要改了模型或提示词，ID 就会变。

最关键的一点是：Block 之间不是靠“语义”连接，而是靠 ID 严格匹配。一旦不匹配，流程就跑不起来。

这听起来很啰嗦，但在审计和合规时，它变成了护身符——你可以精确回答：这个临床文档，是由哪一版模型、哪一次 Prompt 生成的，没有任何模糊空间。更重要的是，这套 UI 让医生自己就能搭工作流，而不是被迫排队等工程师改代码。

他们不怕慢，只怕“幻觉”：Halumi 成了最重要的指标

Tortus 给幻觉和遗漏起了一个内部名字：Halumi。他们的评估体系不追求自动化，而是承认一个现实：真正能判断医疗安全的，只有医生。

每个实验都会让多位医生人工标注：哪些是凭空生成的内容（Hallucination），哪些是漏掉的关键信息（Omission），并进一步区分“会不会影响临床结果”的重大错误。

一个极具警示意义的发现是：他们曾以为“先抽取事实、再生成信件”会更安全，结果实验数据显示，重大幻觉反而暴涨。正是这套实验框架，让他们在上线前就踩下刹车。

更聪明的是，他们在 Block 级别复用标注结果、用相同随机种子做对照实验，用最小的人力成本，换取最大程度的安全确定性。

总结

Tortus 的分享给 AI 从业者一个清醒的提醒：在高风险场景里，真正的竞争力不是模型有多新，而是你有没有一套“敢慢下来”的工程与评估体系。如果你正在做 LLM 应用，尤其是面向金融、医疗、法律，这场分享几乎是一份行动清单：把流程拆小、让领域专家进来、用实验而不是感觉做决策。未来的分水岭，很可能不是谁第一个接入新模型，而是谁最后一个还没出事故。

关键词：大语言模型，医疗AI，幻觉， AI安全， OpenAI DevDay

事实核查备注：需核查：1）7分钟节省时间的具体统计口径；2）60%临床时间用于电脑任务、4000次点击、53%倦怠的来源；3）Tortus 是否为 tauris/torus 的正式拼写；4）Halumi 是否为其内部或计划商标名称；5）DevDay 2024 的具体场次与时长。

返回文章列表