OpenAI真正的下一战场：不是模型，而是接管你电脑的AI代理

AI PM 编辑部 · 2024年02月09日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人还在盯着GPT-4、Gemini Ultra谁更强时，OpenAI已经悄悄把战场往前推了一步：让AI不再“回答问题”，而是直接替你干活。这不是一个新模型的故事，而是一次对人类使用电脑方式的正面进攻。

当所有人还在盯着GPT-4、Gemini Ultra谁更强时，OpenAI已经悄悄把战场往前推了一步：让AI不再“回答问题”，而是直接替你干活。这不是一个新模型的故事，而是一次对人类使用电脑方式的正面进攻。

一个极具反差的事实是：就在Google高调把Bard改名为Gemini、放出Ultra模型的同一时间，OpenAI内部最被看好的方向，已经不再是“更强的聊天模型”。

The Information披露，OpenAI正在开发AI Agent软件，让ChatGPT可以接管你的设备，执行真实世界中的复杂任务：复制文档数据到表格、填写报销单、在不同软件之间来回操作。关键点不在“理解你说什么”，而在于它会像人一样点击、输入、切换窗口。

这标志着一个本质变化：AI第一次被设计成“使用软件的主体”，而不是嵌在软件里的工具。去年开发者圈热炒的“AI Agent”，在这里终于出现了最激进、也最危险的版本。

报道中一个容易被忽略的细节是：OpenAI并不是只做一种Agent，而是同时推进两条线。

第一种，是“设备级Agent”，直接在你的电脑上工作，模仿人类操作本地应用；第二种，是“网页级Agent”，专门处理Web端任务。这与Sam Altman多次提到的愿景高度一致——把ChatGPT做成“超级智能的工作助理”。

但问题也随之而来：这条路，正在不可避免地撞上Microsoft。Copilot的定位，本质上也是让AI参与真实工作流。不同的是，Copilot更像“嵌入式副驾驶”，而OpenAI的Agent野心，是“坐到驾驶位上”。

更微妙的是信任问题。今天，唯一会接管你电脑的程序，通常被叫做病毒或木马。OpenAI要说服用户，这一次不一样。

虽然没有产品发布时间，但OpenAI内部的信号非常强烈。一位参与相关项目的员工Ben Newhouse在X上写道：他们正在构建一个“可能定义行业的0到1产品”。

OpenAI产品副总裁Pete Welinder更直白：“这将改变一切。”

如果你回头看OpenAI过去一年的产品节奏，会发现一条清晰的演进路径：Custom GPT被定位为Agent的第一步，Assistants API明确服务于“轻量Agent”体验。现在曝光的，只是这条路线的终点轮廓。

重要的是：这不是临时起意。相关工作已经持续一年以上。这意味着，当外界还在比较模型参数时，OpenAI已经在为“模型如何真正产生价值”下注。

同一期节目里，还有两条容易被低估的暗线。

一条是苹果。通过开源MG模型，苹果展示了一种完全不同的AI路径：强调推理、强调自然语言控制，而不是炫技式生成。它更像是在为“系统级AI体验”铺路。

另一条，来自一项美国劳工调查。真正让员工焦虑的，并不是AI直接抢工作，而是那只“看不见的手”——算法参与招聘、裁员，却不给你解释和申诉的机会。

把这两件事和AI Agent放在一起看，会发现一个尖锐问题：当AI不仅能决策，还能执行，权力边界该怎么划？

OpenAI这次释放的信号很明确：下一轮竞争不再是“谁更会说话”，而是“谁能真正把事情做完”。AI Agent一旦成熟，影响的不只是效率，而是整个软件生态与工作的定义方式。

对AI从业者来说，现在值得提前思考三件事：你的产品，未来是被Agent调用，还是被Agent取代？你的核心价值，是模型能力，还是对真实工作流的理解？以及，当AI开始替人“行动”，你是否准备好解释、约束和信任它？

模型的时代还没结束，但决定胜负的，可能已经不是模型本身了。

关键词： AI Agent， OpenAI， ChatGPT， Gemini Ultra，超级个人助理

事实核查备注：需要核查：The Information关于OpenAI开发AI Agent的原文表述；Ben Newhouse与Pete Welinder的公开言论原文；视频发布时间2024-02-09；Rutgers大学HRI Center调查中“7成担忧HR算法”的具体比例