OpenAI真正的下一战场:不是模型,而是接管你电脑的AI代理

AI PM 编辑部 · 2024年02月09日 · 7 阅读 · AI/人工智能

正在加载视频...

视频章节

当所有人还在盯着GPT-4、Gemini Ultra谁更强时,OpenAI已经悄悄把战场往前推了一步:让AI不再“回答问题”,而是直接替你干活。这不是一个新模型的故事,而是一次对人类使用电脑方式的正面进攻。

OpenAI真正的下一战场:不是模型,而是接管你电脑的AI代理

当所有人还在盯着GPT-4、Gemini Ultra谁更强时,OpenAI已经悄悄把战场往前推了一步:让AI不再“回答问题”,而是直接替你干活。这不是一个新模型的故事,而是一次对人类使用电脑方式的正面进攻。

当AI不再聊天,而是开始“动鼠标”

一个极具反差的事实是:就在Google高调把Bard改名为Gemini、放出Ultra模型的同一时间,OpenAI内部最被看好的方向,已经不再是“更强的聊天模型”。

The Information披露,OpenAI正在开发AI Agent软件,让ChatGPT可以接管你的设备,执行真实世界中的复杂任务:复制文档数据到表格、填写报销单、在不同软件之间来回操作。关键点不在“理解你说什么”,而在于它会像人一样点击、输入、切换窗口。

这标志着一个本质变化:AI第一次被设计成“使用软件的主体”,而不是嵌在软件里的工具。去年开发者圈热炒的“AI Agent”,在这里终于出现了最激进、也最危险的版本。

两个Agent方向,直指“超级个人助理”

报道中一个容易被忽略的细节是:OpenAI并不是只做一种Agent,而是同时推进两条线。

第一种,是“设备级Agent”,直接在你的电脑上工作,模仿人类操作本地应用;第二种,是“网页级Agent”,专门处理Web端任务。这与Sam Altman多次提到的愿景高度一致——把ChatGPT做成“超级智能的工作助理”。

但问题也随之而来:这条路,正在不可避免地撞上Microsoft。Copilot的定位,本质上也是让AI参与真实工作流。不同的是,Copilot更像“嵌入式副驾驶”,而OpenAI的Agent野心,是“坐到驾驶位上”。

更微妙的是信任问题。今天,唯一会接管你电脑的程序,通常被叫做病毒或木马。OpenAI要说服用户,这一次不一样。

内部信号很明确:这是个“零到一”的大赌注

虽然没有产品发布时间,但OpenAI内部的信号非常强烈。一位参与相关项目的员工Ben Newhouse在X上写道:他们正在构建一个“可能定义行业的0到1产品”。

OpenAI产品副总裁Pete Welinder更直白:“这将改变一切。”

如果你回头看OpenAI过去一年的产品节奏,会发现一条清晰的演进路径:Custom GPT被定位为Agent的第一步,Assistants API明确服务于“轻量Agent”体验。现在曝光的,只是这条路线的终点轮廓。

重要的是:这不是临时起意。相关工作已经持续一年以上。这意味着,当外界还在比较模型参数时,OpenAI已经在为“模型如何真正产生价值”下注。

苹果与普通人:另一条暗线正在浮现

同一期节目里,还有两条容易被低估的暗线。

一条是苹果。通过开源MG模型,苹果展示了一种完全不同的AI路径:强调推理、强调自然语言控制,而不是炫技式生成。它更像是在为“系统级AI体验”铺路。

另一条,来自一项美国劳工调查。真正让员工焦虑的,并不是AI直接抢工作,而是那只“看不见的手”——算法参与招聘、裁员,却不给你解释和申诉的机会。

把这两件事和AI Agent放在一起看,会发现一个尖锐问题:当AI不仅能决策,还能执行,权力边界该怎么划?

总结

OpenAI这次释放的信号很明确:下一轮竞争不再是“谁更会说话”,而是“谁能真正把事情做完”。AI Agent一旦成熟,影响的不只是效率,而是整个软件生态与工作的定义方式。

对AI从业者来说,现在值得提前思考三件事:你的产品,未来是被Agent调用,还是被Agent取代?你的核心价值,是模型能力,还是对真实工作流的理解?以及,当AI开始替人“行动”,你是否准备好解释、约束和信任它?

模型的时代还没结束,但决定胜负的,可能已经不是模型本身了。


关键词: AI Agent, OpenAI, ChatGPT, Gemini Ultra, 超级个人助理

事实核查备注: 需要核查:The Information关于OpenAI开发AI Agent的原文表述;Ben Newhouse与Pete Welinder的公开言论原文;视频发布时间2024-02-09;Rutgers大学HRI Center调查中“7成担忧HR算法”的具体比例