Anthropic“让AI用电脑”:真正的智能体时代拐点出现了
正在加载视频...
视频章节
Anthropic推出的Computer Use能力,并不是模型参数的升级,而是AI与数字世界交互方式的根本变化。结合OpenAI o1的推理突破,这期视频揭示了一个清晰信号:AI正在从“会想”走向“会做”,智能体时代已经启动。
Anthropic“让AI用电脑”:真正的智能体时代拐点出现了
Anthropic推出的Computer Use能力,并不是模型参数的升级,而是AI与数字世界交互方式的根本变化。结合OpenAI o1的推理突破,这期视频揭示了一个清晰信号:AI正在从“会想”走向“会做”,智能体时代已经启动。
从“更聪明的模型”到“不同物种”:AI正在分叉进化
为什么最近几周的AI进展值得我们停下来认真看一眼?视频一开始就给出了答案:我们正在目睹AI“进化树”的第一次清晰分叉。第一个标志性事件是OpenAI发布的o1模型。它并不是GPT‑4o的简单升级,而是一种在工作方式上完全不同的模型。
演讲者特别强调,o1内置了类似“Chain of Thought(思维链)”的推理机制,会在生成答案前,把复杂问题拆解为多个步骤并顺序推理。这也是为什么在使用o1时,你不再需要提示它“请一步步思考”。这种设计带来的直接结果是:o1在代码、数学以及“存在明确正确答案”的商业问题上明显更强。
视频中举了一个很具体的对比:如果你让模型写诗,o1未必比GPT‑4o好;但如果你要根据输入条件,计算一个大型会议的宴会厅最佳布局,o1会明显更可靠。这种差异虽然细微,却非常关键——它意味着我们正进入一个“推理模型”的新阶段,而这正是“智能体(Agent)时代”的前奏。
OpenAI的AI分级图谱:为什么“会行动”才是真门槛
为了理解Anthropic的Computer Use为何重要,视频中引用了OpenAI不久前公开的AI能力分级框架。Level 1是聊天机器人;Level 2是推理者,而o1正好处在这一层,具备接近人类的问题解决能力。
真正的分水岭在Level 3——Agent。也就是“能采取行动的系统”。再往后,Level 4是“创新型AI”,可以辅助发明;Level 5则是“组织级AI”,能够完成一个完整组织的工作。
这一框架的价值在于,它明确指出:再聪明的推理,如果不能行动,就仍然只是‘高级顾问’。而Anthropic的Computer Use,正是瞄准了从Level 2跨向Level 3的关键一步。它不是让模型多懂一点世界,而是让模型真正进入我们每天使用的数字环境。
Computer Use:不是新工具,而是让AI直接“用你的电脑”
Anthropic在发布Claude 3.5 Sonnet升级和新模型Claude 3.5 Haiku的同时,真正引爆讨论的是Computer Use。官方的定义非常直接:开发者现在可以指挥Claude像人一样使用电脑——看屏幕、移动鼠标、点击位置、用虚拟键盘输入文字。
一个重要细节是,这套能力被设计得极其通用,并非针对某个特定用例。Anthropic明确写道:“大量现代工作都发生在电脑上,让AI直接以人类方式与软件交互,将解锁当前AI助手无法完成的大量应用。”
视频中特别点出,这和o1的意义类似:这不是模型层面的创新,而是能力层面的创新。过去是“为模型造工具”,构建各种定制API;而Computer Use的逻辑恰恰相反——“让模型适配工具”,直接进入我们已经在用的操作系统和软件。这种方向上的转变,本身就是一个强烈信号。
数像素的AI:一个意外但关键的技术细节
Computer Use最让人意外的幕后故事,是它的工作原理。Anthropic在公告中透露,当Claude被要求操作软件时,它会查看用户可见的屏幕截图,然后计算需要在水平或垂直方向移动多少像素,才能把光标移动到正确位置。
他们直言不讳地说:“训练Claude准确地数像素是关键。”如果没有这项能力,模型几乎无法发出有效的鼠标指令。也正是在这一过程中,Anthropic发现了一个惊喜:模型在只接触过计算器、文本编辑器等极少数软件的训练后,就迅速泛化到了其他复杂场景。
更重要的是,Claude开始展现出自我纠错能力。当操作遇到障碍时,它会尝试调整步骤并重试。这种把“书面指令”转化为“可执行动作序列”的能力,正是智能体最核心的特征之一。
实验、风险与未来:这只是第一眼
Anthropic对Computer Use的定位非常克制。他们反复强调:这是一项高度实验性的能力,错误率高,而且很多对人类来说轻而易举的动作——比如滚动、拖拽、缩放——对Claude来说仍然很困难。目前它只通过API提供,需要开发者自行构建应用场景。
在安全层面,Anthropic也给出了明确边界:他们并未训练Computer Use用于浏览互联网,Claude 3.5 Sonnet仍处于AI安全Level 2。他们的判断是,如果未来更高风险的模型再引入这类能力,风险可能被放大,因此“趁现在引入,提前应对问题更好”。这与OpenAI反复强调的“迭代式部署”理念高度一致。
Alex Albert在社交平台上的总结,则更具未来感:“Computer Use是全新人机交互形式的第一步。”他展示的案例中,Claude在浏览器中打开网站代码,在VS Code中新建文件并修复Bug,全程没有定制API,只是像人一样操作电脑。
总结
回看这期视频,一个清晰的脉络逐渐浮现:o1代表AI“开始真正会想”,而Anthropic的Computer Use,则代表AI“开始真正会做”。它现在笨拙、易错、受限,但方向无比明确。正如视频最后所说,这是AI进化树上的又一次分叉,也是通向真正智能体未来的一次试探。对我们每个人而言,问题不再是AI会不会接管电脑,而是当它真的像你一样操作电脑时,你准备好如何与它共处了吗?
关键词: AI Agent, Anthropic, Claude 3.5 Sonnet, Computer Use, OpenAI o1
事实核查备注: 视频来源:The AI Daily Brief(2024-10-24)。涉及模型与产品:OpenAI o1、GPT-4o;Anthropic Claude 3.5 Sonnet、Claude 3.5 Haiku、Computer Use。AI分级框架:Level 1 聊天机器人,Level 2 推理者,Level 3 智能体,Level 4 创新型AI,Level 5 组织型AI。技术细节:Computer Use通过屏幕截图与像素计数实现鼠标操作;当前为实验性API功能;Claude 3.5 Sonnet处于AI安全Level 2。引用观点来自视频原述及Alex Albert公开表述。