他们用AI代理把临床试验文书从“小时级”压到“分钟级”

AI PM 编辑部 · 2024年12月17日 · 4 阅读 · AI/人工智能

Sam Altman 文本生成 AI推理 AI应用上下文窗口大语言模型 AI Agent 生成式AI 检索增强生成提示工程

正在加载视频...

视频章节

在 OpenAI DevDay 的舞台上，Genmab 抛出了一个让全场安静下来的观点：在临床试验里，99% 的准确率等于失败。他们展示了一套名为 CELI 的 AI Agent 框架，如何把原本需要数小时的人类专业工作，压缩到几分钟完成，而且目标只有一个——100% 可用于监管提交。

他们用AI代理把临床试验文书从“小时级”压到“分钟级”

在 OpenAI DevDay 的舞台上，Genmab 抛出了一个让全场安静下来的观点：在临床试验里，99% 的准确率等于失败。他们展示了一套名为 CELI 的 AI Agent 框架，如何把原本需要数小时的人类专业工作，压缩到几分钟完成，而且目标只有一个——100% 可用于监管提交。

99% 不够用：AI 在临床试验里最反直觉的真相

如果你做的是 ToC 产品，模型偶尔“差一点”问题不大；但在临床试验里，差 1% 就可能意味着整个药物审批被打回重来。Genmab 在 DevDay 上点破了一个很多 AI 从业者容易忽略的现实：监管级文档不是“写得像”，而是“必须完全正确”。

一个新药从试验到上市，通常要 8 年以上、耗资数十亿美元。更残酷的是，每一位受试者、每一天的数据，都会生成一整套“患者故事”式的监管文档。这些文档需要医学写作者和临床专家，从成百上千页资料、上万数据点中交叉验证、人工总结。

Scott 说得很直白：如果只是靠 GPT-4o prompt 一把梭，是永远过不了这一关的。不是模型不强，而是问题本身不允许“概率性正确”。这正是他们决定引入 AI Agent，而不是“更聪明的聊天机器人”的原因。

CELI 不是在写文档，而是在“执行一份计划”

Genmab 给这套系统起了一个名字：CELI。它的关键不在生成能力，而在“过程控制”。

CELI 的工作方式，更像一个会自省的项目经理：一开始就把完整任务蓝图塞进 system prompt——角色、目标、顺序任务清单、医学与监管写作规范，全都写清楚。模型在执行 Task 1 时，已经“知道” Task 10 要用到什么。

每一步，CELI 都会：1）检索所需数据（表格、ID、外部文档）；2）把结果写回上下文；3）汇报当前完成了什么、正在做什么、下一步是什么。如果某一步失败，它不会糊过去，而是尝试修正再继续。

这个设计听起来啰嗦，但正是这种“强约束”，让系统可以不断迭代，逼近他们口中的那个目标：100% 准确率。Scott 提到，他们甚至已经验证，这种框架可以泛化到“只要结果可评估”的其他问题上——这句话，对 Agent 从业者来说信息量很大。

为什么要一段一段写？这是为准确率买单

在现场 Demo 里，Sam Wagner 特意强调了一个细节：CELI 从不一次性生成整篇文档，而是按小节、按天、按患者逐段撰写。

原因很现实：把长文拆碎，模型更容易从上下文中“精确命中”需要的数据，而不是凭语言惯性发挥。等所有小节都完成后，再统一编译成最终草稿。

流程末尾还有一个“监控 Agent”，专门确认所有步骤是否按顺序完成、文档是否成功保存。这听起来不像 AI，更像传统软件工程里的流水线校验，但恰恰是这些“反 AI 浪漫主义”的设计，让系统真正能进生产环境。

Sam 的一句话点破本质：CELI 不是在模拟一个医学写作者，而是在搭建一个不会偷懒的流程机器。

快的不是效率，而是病人能更早用上药

当 Demo 结束，Scott 把视角拉回了“为什么要做这件事”。

原本需要数小时的文档，现在是分钟级；乘以成千上万的患者、多个试验、无数监管文件，节省的不是人力，而是时间窗口。他说，如果一个试验哪怕提前一个月完成，可能就意味着成百上千名重症患者，能更早接触到新药。

这也是 Genmab 反复强调的一点：他们推动 AI，不是为了 PPT 上的自动化率，而是为了压缩现实世界的等待时间。CELI 也因此被定位为“通用问题求解器”，而不只是临床文档工具，并且计划以开源形式吸引更多人参与。

总结

Genmab 的分享给 AI 从业者一个非常现实的提醒：当你进入高风险、强监管场景，真正的护城河不在模型参数，而在流程设计、评估机制和自我纠错能力。AI Agent 的价值，也不在“像人一样聪明”，而在“比人更守规矩”。

如果你正在做企业级或关键业务的 AI 应用，这场演讲值得反复回看：你是否真的为“失败”设计了系统？你的 Agent，是否知道自己下一步要干什么？或许，下一个突破点，不在更大的模型，而在更严格的约束。

关键词： AI Agent，临床试验， CELI， GPT-4o，检索增强生成

事实核查备注：需要核查：1）Genmab 提到的临床试验平均周期“8 年以上、数十亿美元”的表述；2）CELI 是否计划或已经开源；3）“分钟级 vs 小时级”的效率对比是否有量化数据；4）演讲者身份：Scott（Genmab AI Innovation Team 负责人）、Sam Wagner；5）所使用模型为 GPT-4o。

返回文章列表