临床试验8年缩到几分钟？Genmab在OpenAI DevDay展示了AI Agent的真威力

AI PM 编辑部 · 2024年12月17日 · 3 阅读 · AI/人工智能

AI应用上下文窗口大语言模型 AI Agent 检索增强生成提示工程 GPT-4o ChatGPT

正在加载视频...

视频章节

在OpenAI DevDay的舞台上，Genmab抛出了一个让所有AI从业者竖起耳朵的说法：不是99%，而是100%准确率，AI才能真正进入临床试验核心流程。他们展示的不是Demo，而是一套已经把“小时级工作压缩到分钟级”的AI Agent框架。

临床试验8年缩到几分钟？Genmab在OpenAI DevDay展示了AI Agent的真威力

在OpenAI DevDay的舞台上，Genmab抛出了一个让所有AI从业者竖起耳朵的说法：不是99%，而是100%准确率，AI才能真正进入临床试验核心流程。他们展示的不是Demo，而是一套已经把“小时级工作压缩到分钟级”的AI Agent框架。

99%准确率没用：为什么临床试验逼出了“真·AI Agent”

如果你还觉得“GPT 写文档已经很强了”，那Genmab的故事可能会直接给你泼一盆冷水。在生物医药领域，尤其是临床试验，99%准确率是完全不可接受的。一个数字错了、一句话歧义了，轻则返工，重则影响药物审批。

Scott在台上点出了一个残酷现实：一款新药，从试验到上市，通常要8年以上、数十亿美元。其中大量时间，并不是耗在实验本身，而是耗在文档——尤其是提交给监管机构的临床叙述文件上。

这些文档有个外号，叫“患者的故事”。听起来很浪漫，实际上是：每天、每个患者、上千个数据点、横跨数百页原始资料，由专业医学写作者人工整理。

问题来了：
- 数据来源多而碎
- 内外部系统混杂
- 必须可追溯、可审计

Scott直接给GPT-4o划了一条线：“只靠Prompt，是不可能过监管的。”这也是为什么Genmab没有停在“用大模型”，而是硬生生逼出了一个AI Agent框架。

CELI到底新在哪：不是更聪明，而是“会干活”

Genmab给这套框架起了个名字：CELI。如果只听名字你可能没感觉，但Sam在现场一跑流程，很多做Agent的人都会会心一笑：

这不是一个“问一句、答一句”的模型，而是一个知道自己接下来要干什么的系统。

CELI的核心不是“一次性生成”，而是：
- 先定义角色与目标（你是谁，要写哪种文档）
- 再定义完整任务清单（按顺序执行，像Checklist）
- 每一步都能调用工具、做检索、存上下文
- 每完成一步，都会告诉自己：✅完成了什么，➡️接下来干什么

最关键的一点：它在第1步，就已经“知道”第10步要用什么信息。

这听起来简单，但本质上解决了AI Agent里最难的一件事：长期规划 + 自我校验。所有检索到的ID、表格、数据，都会持续留在上下文中，为后续写作服务。

这也解释了为什么它能不断“自我修正”，一步步逼近那条监管红线要求的——100%准确。

从“整篇生成”到“分段收敛”：他们是怎么拿到100%的

在很多公司，生成临床文档的失败方式都一样：

一次性生成一整篇，然后人工检查、返工、重来。

CELI完全反过来。

它的策略是：切碎任务，而不是拉长上下文。
- 先完成所有必要数据的检索
- 再按章节、按天、按患者逐段生成
- 每一小段都只使用“已经验证过”的上下文

Sam在Demo里展示了一个细节：CELI在写当前段落时，会明确说明“这些信息是从哪些检索结果中得来的，以及它们未来会用在哪”。

最后还有一个容易被忽略，但对企业极其重要的角色：监控Agent。

这个Agent不写字，只做三件事：
1. 检查每个步骤是否按顺序完成
2. 确认所有产出是否成功保存
3. 保证流程可追溯

这一步，直接把AI从“聪明助手”，推到了“合规流程的一部分”。

真正的价值不在效率，而在“时间换生命”

Scott在结尾没有再谈技术，而是抛出了一个更重的对比。

过去：
- 一份文档：数小时
- 上千患者 × 多个试验 × 多种文档

现在：
- 同样流程：分钟级完成

但真正让他们“早上愿意起床来干这件事”的，不是节省了多少人力，而是一个假设：

“如果一个临床试验能提前哪怕一个月结束，可能就意味着成百上千名重症患者，能更早用上药。”

这也是为什么Genmab强调：CELI不是一个只属于生物医药的系统。它是一个通用问题求解器 + 高风险文档生成框架。

任何对“必须100%正确”的场景——金融合规、法律文书、航空航天——都会在这里看到影子。

总结

Genmab在DevDay给AI行业提了一个非常“硬”的问题：当场景不允许犯错时，你的AI系统还能不能工作？他们的答案不是更大的模型，而是更像人的流程设计。对AI从业者来说，这场分享的takeaway很清晰：下一阶段的竞争，不在Prompt技巧，而在你能否构建一个会规划、会校验、会负责的AI Agent。真正的门槛，才刚刚开始。

关键词： AI Agent，临床试验， GPT-4o，检索增强生成，提示工程

事实核查备注： 1. 视频发布时间：2024-12-17；2. Genmab展示的框架名称是否为CELI全称；3. 临床试验平均8年以上、数十亿美元的说法为行业常见数据，需二次核实；4. Demo中是否明确使用GPT-4o；5. CELI是否已计划开源或发表论文（Scott提到“即将发布”）。

返回文章列表