临床试验8年缩到几分钟?Genmab在OpenAI DevDay展示了AI Agent的真威力

AI PM 编辑部 · 2024年12月17日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

在OpenAI DevDay的舞台上,Genmab抛出了一个让所有AI从业者竖起耳朵的说法:不是99%,而是100%准确率,AI才能真正进入临床试验核心流程。他们展示的不是Demo,而是一套已经把“小时级工作压缩到分钟级”的AI Agent框架。

临床试验8年缩到几分钟?Genmab在OpenAI DevDay展示了AI Agent的真威力

在OpenAI DevDay的舞台上,Genmab抛出了一个让所有AI从业者竖起耳朵的说法:不是99%,而是100%准确率,AI才能真正进入临床试验核心流程。他们展示的不是Demo,而是一套已经把“小时级工作压缩到分钟级”的AI Agent框架。

99%准确率没用:为什么临床试验逼出了“真·AI Agent”

如果你还觉得“GPT 写文档已经很强了”,那Genmab的故事可能会直接给你泼一盆冷水。在生物医药领域,尤其是临床试验,99%准确率是完全不可接受的。一个数字错了、一句话歧义了,轻则返工,重则影响药物审批。

Scott在台上点出了一个残酷现实:一款新药,从试验到上市,通常要8年以上、数十亿美元。其中大量时间,并不是耗在实验本身,而是耗在文档——尤其是提交给监管机构的临床叙述文件上。

这些文档有个外号,叫“患者的故事”。听起来很浪漫,实际上是:每天、每个患者、上千个数据点、横跨数百页原始资料,由专业医学写作者人工整理。

问题来了:
- 数据来源多而碎
- 内外部系统混杂
- 必须可追溯、可审计

Scott直接给GPT-4o划了一条线:“只靠Prompt,是不可能过监管的。”这也是为什么Genmab没有停在“用大模型”,而是硬生生逼出了一个AI Agent框架。

CELI到底新在哪:不是更聪明,而是“会干活”

Genmab给这套框架起了个名字:CELI。如果只听名字你可能没感觉,但Sam在现场一跑流程,很多做Agent的人都会会心一笑:

这不是一个“问一句、答一句”的模型,而是一个知道自己接下来要干什么的系统。

CELI的核心不是“一次性生成”,而是:
- 先定义角色与目标(你是谁,要写哪种文档)
- 再定义完整任务清单(按顺序执行,像Checklist)
- 每一步都能调用工具、做检索、存上下文
- 每完成一步,都会告诉自己:✅完成了什么,➡️接下来干什么

最关键的一点:它在第1步,就已经“知道”第10步要用什么信息。

这听起来简单,但本质上解决了AI Agent里最难的一件事:长期规划 + 自我校验。所有检索到的ID、表格、数据,都会持续留在上下文中,为后续写作服务。

这也解释了为什么它能不断“自我修正”,一步步逼近那条监管红线要求的——100%准确。

从“整篇生成”到“分段收敛”:他们是怎么拿到100%的

在很多公司,生成临床文档的失败方式都一样:

一次性生成一整篇,然后人工检查、返工、重来。

CELI完全反过来。

它的策略是:切碎任务,而不是拉长上下文。
- 先完成所有必要数据的检索
- 再按章节、按天、按患者逐段生成
- 每一小段都只使用“已经验证过”的上下文

Sam在Demo里展示了一个细节:CELI在写当前段落时,会明确说明“这些信息是从哪些检索结果中得来的,以及它们未来会用在哪”。

最后还有一个容易被忽略,但对企业极其重要的角色:监控Agent

这个Agent不写字,只做三件事:
1. 检查每个步骤是否按顺序完成
2. 确认所有产出是否成功保存
3. 保证流程可追溯

这一步,直接把AI从“聪明助手”,推到了“合规流程的一部分”。

真正的价值不在效率,而在“时间换生命”

Scott在结尾没有再谈技术,而是抛出了一个更重的对比。

过去:
- 一份文档:数小时
- 上千患者 × 多个试验 × 多种文档

现在:
- 同样流程:分钟级完成

但真正让他们“早上愿意起床来干这件事”的,不是节省了多少人力,而是一个假设:

“如果一个临床试验能提前哪怕一个月结束,可能就意味着成百上千名重症患者,能更早用上药。”

这也是为什么Genmab强调:CELI不是一个只属于生物医药的系统。它是一个通用问题求解器 + 高风险文档生成框架

任何对“必须100%正确”的场景——金融合规、法律文书、航空航天——都会在这里看到影子。

总结

Genmab在DevDay给AI行业提了一个非常“硬”的问题:当场景不允许犯错时,你的AI系统还能不能工作?他们的答案不是更大的模型,而是更像人的流程设计。对AI从业者来说,这场分享的takeaway很清晰:下一阶段的竞争,不在Prompt技巧,而在你能否构建一个会规划、会校验、会负责的AI Agent。真正的门槛,才刚刚开始。


关键词: AI Agent, 临床试验, GPT-4o, 检索增强生成, 提示工程

事实核查备注: 1. 视频发布时间:2024-12-17;2. Genmab展示的框架名称是否为CELI全称;3. 临床试验平均8年以上、数十亿美元的说法为行业常见数据,需二次核实;4. Demo中是否明确使用GPT-4o;5. CELI是否已计划开源或发表论文(Scott提到“即将发布”)。