当5000名员工同时拥有AI代理：企业Agent时代真的来了

AI PM 编辑部 · 2025年09月24日 · 8 阅读 · AI/人工智能

Sam Altman 强化学习模型训练模型部署通用人工智能 AI应用 AI Agent AI推理云AI Sora

正在加载视频...

视频章节

这期《The AI Daily Brief》通过花旗集团、Distill、Perplexity和OpenAI等多个一线案例，揭示了AI Agent从概念走向企业核心生产力的真实路径：不是模型更强，而是系统更“能干活”，以及组织是否愿意为此重塑自身。

当5000名员工同时拥有AI代理：企业Agent时代真的来了

这期《The AI Daily Brief》通过花旗集团、Distill、Perplexity和OpenAI等多个一线案例，揭示了AI Agent从概念走向企业核心生产力的真实路径：不是模型更强，而是系统更“能干活”，以及组织是否愿意为此重塑自身。

花旗的5000个Agent：真正的变化不是更聪明，而是更自主

为什么花旗（Citigroup）的这个案例值得反复琢磨？因为它罕见地把“Agent”从演示和试点，推到了真实大规模企业场景。根据《华尔街日报》的报道，花旗在过去两年持续打造自有AI平台，而在本月，真正的“agentic能力”终于上线。

CTO David Griffiths给出了一个非常具体、也非常有代表性的例子：用户只需一个提示，Agent就可以完成对某个客户的研究，整合公开信息与内部数据建立画像，然后把生成的报告翻译成多种语言。关键不在于这些功能本身——此前系统已经能“分别”做到这些事——而在于“把所有工作流连接起来，移除每一步之间的人类触点”。

Griffiths直言：“几年前你也可以用早期模型做一些agentic的事情，但它们并不可靠，也不擅长调用工具。现在不一样了。”这句话点出了Agent时代的本质变化：不是模型第一次会推理，而是第一次足够稳定、足够可信，可以被允许连续跨系统执行任务。

这次试点将覆盖5000名员工，为期4到6周。换句话说，5000名花旗员工即将同时“雇佣”自己的Agent同事。初期任务并不复杂，大多在几分钟内完成，因此成本暂时不是主要压力点。但花旗已经在系统中内置了硬性成本上限，因为他们也承认：在模型价格快速下探的背景下，ROI几乎无法精确计算。

当被问到Agent是否会影响就业时，Griffiths给出了一个罕见的坦率回答：“这是否意味着我们需要更少的人？我不知道。但它肯定意味着我们能完成更多事情。”真正的分岔点在于：企业是把效率红利用于裁员，还是用于做以前根本做不到的新事。

Agent落地最难的不是模型，而是“最后一公里”的脏活累活

如果说花旗的故事展示了Agent的“上限”，那接下来的话题则揭示了它的“地面现实”。主持人明确指出：过去几个月最清楚的一件事是，企业级AI的最后一公里实施异常艰难。

Agent系统不是“装完就走”的软件。它需要深度定制：接入特定数据源、理解企业SOP、映射真实工作流，并且要把Agent流程嵌入到人类原有的协作方式中。这些工作发生在“真正干活的地方”，也是最不性感、但最耗成本的部分。

正是在这个背景下，前Palantir员工创立的Distill完成了一轮极具象征意义的融资：B轮融资1.75亿美元，估值18亿美元。更夸张的是，他们在12个月前的估值只有2亿美元——一年9倍增长。

Distill的定位非常清晰：帮助《财富》500强“成为AI原生企业”。CEO Arjent Picass的判断值得反复引用：“AI时代的赢家，不是只换工具的公司，而是愿意重新想象自己如何运作的公司。”在他看来，下一阶段的竞争不取决于模型本身，而取决于谁能在企业内部真正规模化地“运转AI”。

节目中还带着一点讽刺地提到，一些硅谷投资人曾轻描淡写地说：“企业难道不会自己搞定吗？”现实显然更复杂，而Distill的崛起，正说明这种天真的乐观正在被市场纠正。

从邮箱切入的野心：Perplexity把“上下文”当成护城河

在看似平淡的产品更新中，也藏着长期野心。Perplexity本周发布了邮箱助手，支持撰写回复、整理邮件、安排会议等功能，作为Gmail和Outlook插件，仅向每月200美元的Perplexity Max用户开放。

邮箱助手并不新鲜，微软和谷歌都在把类似功能内建到自家产品中。但Perplexity的叙事明显不同。他们把邮箱视为“个人上下文的核心容器”：职业记忆、人际关系、日程协调都沉淀其中，而发件箱则直接关系到生产力与声誉。

官方博客中有一句非常“野心外露”的话：“最成功的工作者会为他们的邮箱雇佣个人助理，而不是依赖只会处理琐碎任务的AI工具。”这其实是在把邮箱当作更大个人Agent的切入口。

Perplexity首席商务官Dmitry Shevelenko（节目中提到其推文）也承认，这个产品乍看之下很普通，但在高频使用中产生了大量‘wow moment’。主持人坦言，正是这条推文让他在正式发布前就开始关注——因为真正的价值，往往藏在对核心工作流的“优雅增强”里。

在当下“上下文工程”和“上下文编排”成为热词的背景下，Perplexity等于在押注：邮箱，是大多数人最完整、也最真实的上下文所在。

评测成为新战场：OpenAI正在重塑“好模型”的定义

节目最后几个话题看似零散，但背后有一条清晰主线：AI系统正在进入需要被“精细驯化”的阶段。OpenAI近期招聘应用评测（applied eval）团队工程师，明确要求设计能够反映真实世界质量的评测体系。

招聘信息中写道，这个角色“直接塑造模型行为，加速可靠性，并提升客户期望的标准”。这说明评测已经不只是测分数，而是成为强化学习后训练（post-training RL）的一部分。如果你能定义目标，并围绕它设计奖励函数，模型就会朝那个方向进化。

团队负责人Shyamal此前表示，他们的目标是“为客户最关心、最有经济价值的任务，打造世界上最好的评测”。主持人总结得很到位：评测的艺术，本质上是学会问对问题，而这需要极深的领域经验。

同一段里还穿插了关于Sam Altman暗示“高算力功能即将到来”的传闻。有人猜测，OpenAI可能会推出内部推理模型，几乎不依赖工具，仅靠推理在数学和编程上达到顶级表现，而且可能以“稀缺资源”的形式出售。若属实，这将是“通用推理”第一次被明确商品化。

这也再次呼应了前面的主题：模型能力在提升，但真正决定价值的，是你如何约束、评估并部署它。

总结

从花旗的5000个Agent，到Distill的爆炸式估值，再到Perplexity和OpenAI对“上下文”和“评测”的重新定义，这期节目传递的信息非常一致：AI的下一阶段不在实验室，而在组织内部。Agent不是魔法，而是一种对工作流、责任边界和价值分配的再设计。真正的竞争优势，属于那些愿意正视复杂性、并在复杂中持续打磨系统的企业。

关键词： AI Agent，企业AI，花旗集团， Perplexity， OpenAI评测

事实核查备注：花旗集团试点5000名员工使用Agent系统；CTO David Griffiths原话关于agentic可靠性与人类触点；Distill B轮融资1.75亿美元、估值18亿美元，创始团队来自Palantir；Perplexity邮箱助手仅限每月200美元的Max订阅；OpenAI招聘applied eval团队并将评测用于强化学习后训练；Sam Altman关于高算力功能的传闻。

返回文章列表