Codex接管你的电脑:AI第一次在后台真正干活了
正在加载视频...
视频章节
OpenAI 刚刚把 Codex 从“会写代码的助手”,升级成“会用你电脑的同事”。它不抢鼠标、不录屏,却能同时操作多个应用,甚至比人类更快。这不是炫技,而是工作方式的分水岭。
Codex接管你的电脑:AI第一次在后台真正干活了
OpenAI 刚刚把 Codex 从“会写代码的助手”,升级成“会用你电脑的同事”。它不抢鼠标、不录屏,却能同时操作多个应用,甚至比人类更快。这不是炫技,而是工作方式的分水岭。
最反直觉的一点:AI在用你的电脑,但你完全不被打断
如果你见过其他“AI 控制电脑”的演示,大概率是这样的:屏幕被接管、鼠标乱飞、人只能干看着。但 Codex 的 computer use 走了一条完全不同的路。
在视频里,一个细节非常关键——Codex 有“自己的光标”。它在后台点击、拖拽、输入,你的真实鼠标完全不受影响。你可以一边回 Slack、一边写文档,Codex 在另一边默默帮你建虚拟机、下系统、配环境。
这是第一次,AI 的“行动能力”没有破坏人的工作流。Roma 说得很直白:这不是 Codex 在你电脑上表演,而是在“做真实的工作”。这句话很重,因为它意味着 AI 不再是一个需要你全程盯着的工具,而是一个可以并行协作的存在。
从命令行到GUI:Codex终于跨过了那道“人类专属”的门
Codex 以前已经很强:能跑命令、能写代码、能自动化复杂流程。但它一直卡在一个地方——图形界面(GUI)。
GUI 是为人类设计的:看、点、拖、输。这也是为什么大量真实工作(财务软件、设计工具、企业内部系统)对 AI 来说一直是“黑箱”。
这次的变化在于:Codex 不只是“看截图点坐标”。OpenAI 把操作系统的辅助功能(Accessibility Framework)也接了进来。结果是:
- Codex 能理解界面元素的语义,而不只是像素
- 能“看到”滚动区域之外的内容
- 知道哪个是按钮、哪个是输入框、哪个是危险操作
更重要的是,这让 computer use 不再强依赖多模态模型。视频里明确提到:像 Spark 这种非多模态、但速度极快的模型,也能用 computer use,而且快到“超人类”。这是一个被严重低估的技术转折点。
真正让人起鸡皮疙瘩的:多任务、跨应用、同时发生
演示中有一个片段很容易被忽略,但含金量极高。
Codex 一边:
- 在 UTM 里创建 Mac 虚拟机、下载 macOS
一边:
- 打开 Spotify 播放工作音乐
- 在 Reminders 里添加“今晚看税务文件”的提醒
这是多个应用、多个上下文、多个目标,同时推进。
注意,这不是脚本自动化。脚本要求路径固定、界面不变。而 Codex 是在“理解你在干什么”,然后用人类的方式操作软件。Roma 用了一个词形容现在的 Mac:一个真正的“多智能体工作环境”。
当你意识到这一点,会发现问题已经变了:不是“AI 能不能帮我做事”,而是“还有哪些事我不该自己做”。
权限、安全与信任:这次OpenAI明显收紧了边界
computer use 听起来很吓人,OpenAI 也没有回避这个问题。
他们的做法很克制:
- 按“应用”授权,而不是整个桌面
- 第一次使用某个 App,必须显式允许
- 允许的 App 之间是隔离的,不能相互窥探
这意味着什么?意味着你可以放心让 Codex 操作开发工具、生产力软件,同时明确知道:它看不到你的聊天记录、照片或财务 App。
这种设计思路很重要。它不是假设“模型永远不会犯错”,而是假设“错误一定会发生,所以系统必须可控”。在所有关于 AI Agent 的讨论里,这是少见的工程理性时刻。
总结
Codex 的 computer use 不只是一个新功能,而是一个信号:AI Agent 正在从“会想”走向“会做”,而且是在人类工作流内部、以并行协作的方式发生。
对从业者来说,现在就有三个行动点:第一,重新审视你每天在 GUI 里重复点击的工作;第二,开始把任务描述成“目标”,而不是“步骤”;第三,关注 accessibility + agent 的组合,这很可能是下一波效率工具的底层范式。
真正的问题不是 Codex 能做什么,而是:当电脑第一次开始替你行动,你准备把时间用在什么地方?
关键词: Codex, AI Agent, computer use, 多模态, OpenAI
事实核查备注: 1. Computer use 目前是否仅支持 macOS,Windows 版本时间表需确认;2. Spark 是否为非多模态模型及其正式定位;3. Accessibility Framework 的具体实现细节是否有公开文档;4. Codex 与 API 中 GPT 模型能力是否完全一致;5. 视频中演示的并行任务是否为真实并发而非快速串行