他们用AI代理把临床试验文书从“小时级”压到“分钟级”

AI PM 编辑部 · 2024年12月17日 · 4 阅读 · AI/人工智能

正在加载视频...

视频章节

在 OpenAI DevDay 的舞台上,Genmab 抛出了一个让全场安静下来的观点:在临床试验里,99% 的准确率等于失败。他们展示了一套名为 CELI 的 AI Agent 框架,如何把原本需要数小时的人类专业工作,压缩到几分钟完成,而且目标只有一个——100% 可用于监管提交。

他们用AI代理把临床试验文书从“小时级”压到“分钟级”

在 OpenAI DevDay 的舞台上,Genmab 抛出了一个让全场安静下来的观点:在临床试验里,99% 的准确率等于失败。他们展示了一套名为 CELI 的 AI Agent 框架,如何把原本需要数小时的人类专业工作,压缩到几分钟完成,而且目标只有一个——100% 可用于监管提交。

99% 不够用:AI 在临床试验里最反直觉的真相

如果你做的是 ToC 产品,模型偶尔“差一点”问题不大;但在临床试验里,差 1% 就可能意味着整个药物审批被打回重来。Genmab 在 DevDay 上点破了一个很多 AI 从业者容易忽略的现实:监管级文档不是“写得像”,而是“必须完全正确”。

一个新药从试验到上市,通常要 8 年以上、耗资数十亿美元。更残酷的是,每一位受试者、每一天的数据,都会生成一整套“患者故事”式的监管文档。这些文档需要医学写作者和临床专家,从成百上千页资料、上万数据点中交叉验证、人工总结。

Scott 说得很直白:如果只是靠 GPT-4o prompt 一把梭,是永远过不了这一关的。不是模型不强,而是问题本身不允许“概率性正确”。这正是他们决定引入 AI Agent,而不是“更聪明的聊天机器人”的原因。

CELI 不是在写文档,而是在“执行一份计划”

Genmab 给这套系统起了一个名字:CELI。它的关键不在生成能力,而在“过程控制”。

CELI 的工作方式,更像一个会自省的项目经理:一开始就把完整任务蓝图塞进 system prompt——角色、目标、顺序任务清单、医学与监管写作规范,全都写清楚。模型在执行 Task 1 时,已经“知道” Task 10 要用到什么。

每一步,CELI 都会:1)检索所需数据(表格、ID、外部文档);2)把结果写回上下文;3)汇报当前完成了什么、正在做什么、下一步是什么。如果某一步失败,它不会糊过去,而是尝试修正再继续。

这个设计听起来啰嗦,但正是这种“强约束”,让系统可以不断迭代,逼近他们口中的那个目标:100% 准确率。Scott 提到,他们甚至已经验证,这种框架可以泛化到“只要结果可评估”的其他问题上——这句话,对 Agent 从业者来说信息量很大。

为什么要一段一段写?这是为准确率买单

在现场 Demo 里,Sam Wagner 特意强调了一个细节:CELI 从不一次性生成整篇文档,而是按小节、按天、按患者逐段撰写。

原因很现实:把长文拆碎,模型更容易从上下文中“精确命中”需要的数据,而不是凭语言惯性发挥。等所有小节都完成后,再统一编译成最终草稿。

流程末尾还有一个“监控 Agent”,专门确认所有步骤是否按顺序完成、文档是否成功保存。这听起来不像 AI,更像传统软件工程里的流水线校验,但恰恰是这些“反 AI 浪漫主义”的设计,让系统真正能进生产环境。

Sam 的一句话点破本质:CELI 不是在模拟一个医学写作者,而是在搭建一个不会偷懒的流程机器。

快的不是效率,而是病人能更早用上药

当 Demo 结束,Scott 把视角拉回了“为什么要做这件事”。

原本需要数小时的文档,现在是分钟级;乘以成千上万的患者、多个试验、无数监管文件,节省的不是人力,而是时间窗口。他说,如果一个试验哪怕提前一个月完成,可能就意味着成百上千名重症患者,能更早接触到新药。

这也是 Genmab 反复强调的一点:他们推动 AI,不是为了 PPT 上的自动化率,而是为了压缩现实世界的等待时间。CELI 也因此被定位为“通用问题求解器”,而不只是临床文档工具,并且计划以开源形式吸引更多人参与。

总结

Genmab 的分享给 AI 从业者一个非常现实的提醒:当你进入高风险、强监管场景,真正的护城河不在模型参数,而在流程设计、评估机制和自我纠错能力。AI Agent 的价值,也不在“像人一样聪明”,而在“比人更守规矩”。

如果你正在做企业级或关键业务的 AI 应用,这场演讲值得反复回看:你是否真的为“失败”设计了系统?你的 Agent,是否知道自己下一步要干什么?或许,下一个突破点,不在更大的模型,而在更严格的约束。


关键词: AI Agent, 临床试验, CELI, GPT-4o, 检索增强生成

事实核查备注: 需要核查:1)Genmab 提到的临床试验平均周期“8 年以上、数十亿美元”的表述;2)CELI 是否计划或已经开源;3)“分钟级 vs 小时级”的效率对比是否有量化数据;4)演讲者身份:Scott(Genmab AI Innovation Team 负责人)、Sam Wagner;5)所使用模型为 GPT-4o。