正在加载视频...
视频章节
在 OpenAI DevDay 的聚光灯下,Cosine 展示了一个反直觉结论:真正能落地的 AI Agent,不是更大的模型,而是更会“自己练”的模型。Genie 作为全自动 AI 工程师,靠推理 + 自博弈,把工程任务变成了可规模化的能力。
他们没堆参数,靠自博弈训练出“真能干活”的AI工程师
在 OpenAI DevDay 的聚光灯下,Cosine 展示了一个反直觉结论:真正能落地的 AI Agent,不是更大的模型,而是更会“自己练”的模型。Genie 作为全自动 AI 工程师,靠推理 + 自博弈,把工程任务变成了可规模化的能力。
最反直觉的点:AI工程师不是“更聪明”,而是“更自律”
Cosine 的联合创始人兼 CEO Ally 一上来就把预期拉歪了。Genie 被定义为“全自动 AI 工程师”,但支撑它的核心,并不是更大的基础模型,而是一套能持续自我约束、自我修正的机制。换句话说,他们并没有押注“模型会自然变聪明”,而是默认模型会犯错,于是把系统设计成:发现错误、复盘错误、再来一局。这种产品定位本身就很工程师——不迷信天赋,迷信流程。
推理不是装饰品,而是可以被“定制”的生产工具
在 Genie 的体系里,reasoning 是地基,但不是黑盒。Cosine 强调的是“custom reasoning traces”:不是让模型随便想,而是明确告诉它该如何想。哪些步骤必须展开,哪些判断需要被记录,哪些中间结论可以被质疑。这相当于把人类工程师的思考路径,压缩成可复用的推理模板。结果是,同一个基础模型,在叠加这些推理轨迹后,行为稳定性和任务完成度出现了明显差异。这里的关键信号是:推理正在从‘模型能力’变成‘工程资产’。
真正的加速器:自博弈让模型自己当教练
如果说推理决定了 Genie 能走多稳,那 self-play 决定了它能跑多快。Cosine 把自博弈用在工程任务上:模型生成解法、模型审查解法、模型再反驳解法,循环往复,直到“没什么新东西可学”。更关键的一点是,这套流程在他们的实践中“便宜到可以常态化运行”。这意味着训练不再是一次性大工程,而是持续发生的日常行为。模型不是被一次性‘喂饱’,而是在不断对抗中进化。
从 Sentry 日志到可执行修复,AI Agent 的临门一脚
在最后的 Demo 里,Genie 直接面对的是一段原始的 Sentry 报错输出。这是很多团队每天都会见到、但又最消耗人力的东西。Genie 的任务不是解释错误,而是推进问题解决:理解上下文、定位可能原因、尝试方案,直到确认“信息已经足够,可以停了”。这个细节很重要——能停,意味着它知道什么时候不该再想了。对 AI Agent 来说,‘停止条件’和‘行动能力’同样稀缺。
总结
Cosine 的分享释放了一个清晰信号:下一代 AI Agent 的竞争焦点,正在从“模型多大”转向“训练和推理流程多成熟”。自博弈、定制推理轨迹、明确的停止条件,这些看似工程细节的东西,正在决定 AI 是否真的能替你干活。对从业者来说,一个直接的行动建议是:别只盯着新模型,开始把你团队里最值钱的思考路径,系统化、模板化、喂给模型。真正的壁垒,可能就在这些‘不性感’的流程里。
关键词: AI Agent, 自博弈, 推理能力, 模型训练, Genie
事实核查备注: 需要核查:Cosine/Genie 的正式拼写;视频中对 self-play 成本‘便宜’的具体语境;custom reasoning traces 是否为官方术语;Demo 中使用 Sentry 输出的具体描述