当5000名员工同时拥有AI代理:企业Agent时代真的来了
正在加载视频...
视频章节
这期《The AI Daily Brief》通过花旗集团、Distill、Perplexity和OpenAI等多个一线案例,揭示了AI Agent从概念走向企业核心生产力的真实路径:不是模型更强,而是系统更“能干活”,以及组织是否愿意为此重塑自身。
当5000名员工同时拥有AI代理:企业Agent时代真的来了
这期《The AI Daily Brief》通过花旗集团、Distill、Perplexity和OpenAI等多个一线案例,揭示了AI Agent从概念走向企业核心生产力的真实路径:不是模型更强,而是系统更“能干活”,以及组织是否愿意为此重塑自身。
花旗的5000个Agent:真正的变化不是更聪明,而是更自主
为什么花旗(Citigroup)的这个案例值得反复琢磨?因为它罕见地把“Agent”从演示和试点,推到了真实大规模企业场景。根据《华尔街日报》的报道,花旗在过去两年持续打造自有AI平台,而在本月,真正的“agentic能力”终于上线。
CTO David Griffiths给出了一个非常具体、也非常有代表性的例子:用户只需一个提示,Agent就可以完成对某个客户的研究,整合公开信息与内部数据建立画像,然后把生成的报告翻译成多种语言。关键不在于这些功能本身——此前系统已经能“分别”做到这些事——而在于“把所有工作流连接起来,移除每一步之间的人类触点”。
Griffiths直言:“几年前你也可以用早期模型做一些agentic的事情,但它们并不可靠,也不擅长调用工具。现在不一样了。”这句话点出了Agent时代的本质变化:不是模型第一次会推理,而是第一次足够稳定、足够可信,可以被允许连续跨系统执行任务。
这次试点将覆盖5000名员工,为期4到6周。换句话说,5000名花旗员工即将同时“雇佣”自己的Agent同事。初期任务并不复杂,大多在几分钟内完成,因此成本暂时不是主要压力点。但花旗已经在系统中内置了硬性成本上限,因为他们也承认:在模型价格快速下探的背景下,ROI几乎无法精确计算。
当被问到Agent是否会影响就业时,Griffiths给出了一个罕见的坦率回答:“这是否意味着我们需要更少的人?我不知道。但它肯定意味着我们能完成更多事情。”真正的分岔点在于:企业是把效率红利用于裁员,还是用于做以前根本做不到的新事。
Agent落地最难的不是模型,而是“最后一公里”的脏活累活
如果说花旗的故事展示了Agent的“上限”,那接下来的话题则揭示了它的“地面现实”。主持人明确指出:过去几个月最清楚的一件事是,企业级AI的最后一公里实施异常艰难。
Agent系统不是“装完就走”的软件。它需要深度定制:接入特定数据源、理解企业SOP、映射真实工作流,并且要把Agent流程嵌入到人类原有的协作方式中。这些工作发生在“真正干活的地方”,也是最不性感、但最耗成本的部分。
正是在这个背景下,前Palantir员工创立的Distill完成了一轮极具象征意义的融资:B轮融资1.75亿美元,估值18亿美元。更夸张的是,他们在12个月前的估值只有2亿美元——一年9倍增长。
Distill的定位非常清晰:帮助《财富》500强“成为AI原生企业”。CEO Arjent Picass的判断值得反复引用:“AI时代的赢家,不是只换工具的公司,而是愿意重新想象自己如何运作的公司。”在他看来,下一阶段的竞争不取决于模型本身,而取决于谁能在企业内部真正规模化地“运转AI”。
节目中还带着一点讽刺地提到,一些硅谷投资人曾轻描淡写地说:“企业难道不会自己搞定吗?”现实显然更复杂,而Distill的崛起,正说明这种天真的乐观正在被市场纠正。
从邮箱切入的野心:Perplexity把“上下文”当成护城河
在看似平淡的产品更新中,也藏着长期野心。Perplexity本周发布了邮箱助手,支持撰写回复、整理邮件、安排会议等功能,作为Gmail和Outlook插件,仅向每月200美元的Perplexity Max用户开放。
邮箱助手并不新鲜,微软和谷歌都在把类似功能内建到自家产品中。但Perplexity的叙事明显不同。他们把邮箱视为“个人上下文的核心容器”:职业记忆、人际关系、日程协调都沉淀其中,而发件箱则直接关系到生产力与声誉。
官方博客中有一句非常“野心外露”的话:“最成功的工作者会为他们的邮箱雇佣个人助理,而不是依赖只会处理琐碎任务的AI工具。”这其实是在把邮箱当作更大个人Agent的切入口。
Perplexity首席商务官Dmitry Shevelenko(节目中提到其推文)也承认,这个产品乍看之下很普通,但在高频使用中产生了大量‘wow moment’。主持人坦言,正是这条推文让他在正式发布前就开始关注——因为真正的价值,往往藏在对核心工作流的“优雅增强”里。
在当下“上下文工程”和“上下文编排”成为热词的背景下,Perplexity等于在押注:邮箱,是大多数人最完整、也最真实的上下文所在。
评测成为新战场:OpenAI正在重塑“好模型”的定义
节目最后几个话题看似零散,但背后有一条清晰主线:AI系统正在进入需要被“精细驯化”的阶段。OpenAI近期招聘应用评测(applied eval)团队工程师,明确要求设计能够反映真实世界质量的评测体系。
招聘信息中写道,这个角色“直接塑造模型行为,加速可靠性,并提升客户期望的标准”。这说明评测已经不只是测分数,而是成为强化学习后训练(post-training RL)的一部分。如果你能定义目标,并围绕它设计奖励函数,模型就会朝那个方向进化。
团队负责人Shyamal此前表示,他们的目标是“为客户最关心、最有经济价值的任务,打造世界上最好的评测”。主持人总结得很到位:评测的艺术,本质上是学会问对问题,而这需要极深的领域经验。
同一段里还穿插了关于Sam Altman暗示“高算力功能即将到来”的传闻。有人猜测,OpenAI可能会推出内部推理模型,几乎不依赖工具,仅靠推理在数学和编程上达到顶级表现,而且可能以“稀缺资源”的形式出售。若属实,这将是“通用推理”第一次被明确商品化。
这也再次呼应了前面的主题:模型能力在提升,但真正决定价值的,是你如何约束、评估并部署它。
总结
从花旗的5000个Agent,到Distill的爆炸式估值,再到Perplexity和OpenAI对“上下文”和“评测”的重新定义,这期节目传递的信息非常一致:AI的下一阶段不在实验室,而在组织内部。Agent不是魔法,而是一种对工作流、责任边界和价值分配的再设计。真正的竞争优势,属于那些愿意正视复杂性、并在复杂中持续打磨系统的企业。
关键词: AI Agent, 企业AI, 花旗集团, Perplexity, OpenAI评测
事实核查备注: 花旗集团试点5000名员工使用Agent系统;CTO David Griffiths原话关于agentic可靠性与人类触点;Distill B轮融资1.75亿美元、估值18亿美元,创始团队来自Palantir;Perplexity邮箱助手仅限每月200美元的Max订阅;OpenAI招聘applied eval团队并将评测用于强化学习后训练;Sam Altman关于高算力功能的传闻。