Anthropic“让AI用电脑”：真正的智能体时代拐点出现了

AI PM 编辑部 · 2024年10月24日 · 4 阅读 · AI/人工智能

AI应用计算机视觉 AI安全模型训练对话AI 多模态推理代码生成通用人工智能 AI推理

正在加载视频...

视频章节

Anthropic推出的Computer Use能力，并不是模型参数的升级，而是AI与数字世界交互方式的根本变化。结合OpenAI o1的推理突破，这期视频揭示了一个清晰信号：AI正在从“会想”走向“会做”，智能体时代已经启动。

Anthropic“让AI用电脑”：真正的智能体时代拐点出现了

Anthropic推出的Computer Use能力，并不是模型参数的升级，而是AI与数字世界交互方式的根本变化。结合OpenAI o1的推理突破，这期视频揭示了一个清晰信号：AI正在从“会想”走向“会做”，智能体时代已经启动。

从“更聪明的模型”到“不同物种”：AI正在分叉进化

为什么最近几周的AI进展值得我们停下来认真看一眼？视频一开始就给出了答案：我们正在目睹AI“进化树”的第一次清晰分叉。第一个标志性事件是OpenAI发布的o1模型。它并不是GPT‑4o的简单升级，而是一种在工作方式上完全不同的模型。

演讲者特别强调，o1内置了类似“Chain of Thought（思维链）”的推理机制，会在生成答案前，把复杂问题拆解为多个步骤并顺序推理。这也是为什么在使用o1时，你不再需要提示它“请一步步思考”。这种设计带来的直接结果是：o1在代码、数学以及“存在明确正确答案”的商业问题上明显更强。

视频中举了一个很具体的对比：如果你让模型写诗，o1未必比GPT‑4o好；但如果你要根据输入条件，计算一个大型会议的宴会厅最佳布局，o1会明显更可靠。这种差异虽然细微，却非常关键——它意味着我们正进入一个“推理模型”的新阶段，而这正是“智能体（Agent）时代”的前奏。

OpenAI的AI分级图谱：为什么“会行动”才是真门槛

为了理解Anthropic的Computer Use为何重要，视频中引用了OpenAI不久前公开的AI能力分级框架。Level 1是聊天机器人；Level 2是推理者，而o1正好处在这一层，具备接近人类的问题解决能力。

真正的分水岭在Level 3——Agent。也就是“能采取行动的系统”。再往后，Level 4是“创新型AI”，可以辅助发明；Level 5则是“组织级AI”，能够完成一个完整组织的工作。

这一框架的价值在于，它明确指出：再聪明的推理，如果不能行动，就仍然只是‘高级顾问’。而Anthropic的Computer Use，正是瞄准了从Level 2跨向Level 3的关键一步。它不是让模型多懂一点世界，而是让模型真正进入我们每天使用的数字环境。

Computer Use：不是新工具，而是让AI直接“用你的电脑”

Anthropic在发布Claude 3.5 Sonnet升级和新模型Claude 3.5 Haiku的同时，真正引爆讨论的是Computer Use。官方的定义非常直接：开发者现在可以指挥Claude像人一样使用电脑——看屏幕、移动鼠标、点击位置、用虚拟键盘输入文字。

一个重要细节是，这套能力被设计得极其通用，并非针对某个特定用例。Anthropic明确写道：“大量现代工作都发生在电脑上，让AI直接以人类方式与软件交互，将解锁当前AI助手无法完成的大量应用。”

视频中特别点出，这和o1的意义类似：这不是模型层面的创新，而是能力层面的创新。过去是“为模型造工具”，构建各种定制API；而Computer Use的逻辑恰恰相反——“让模型适配工具”，直接进入我们已经在用的操作系统和软件。这种方向上的转变，本身就是一个强烈信号。

数像素的AI：一个意外但关键的技术细节

Computer Use最让人意外的幕后故事，是它的工作原理。Anthropic在公告中透露，当Claude被要求操作软件时，它会查看用户可见的屏幕截图，然后计算需要在水平或垂直方向移动多少像素，才能把光标移动到正确位置。

他们直言不讳地说：“训练Claude准确地数像素是关键。”如果没有这项能力，模型几乎无法发出有效的鼠标指令。也正是在这一过程中，Anthropic发现了一个惊喜：模型在只接触过计算器、文本编辑器等极少数软件的训练后，就迅速泛化到了其他复杂场景。

更重要的是，Claude开始展现出自我纠错能力。当操作遇到障碍时，它会尝试调整步骤并重试。这种把“书面指令”转化为“可执行动作序列”的能力，正是智能体最核心的特征之一。

实验、风险与未来：这只是第一眼

Anthropic对Computer Use的定位非常克制。他们反复强调：这是一项高度实验性的能力，错误率高，而且很多对人类来说轻而易举的动作——比如滚动、拖拽、缩放——对Claude来说仍然很困难。目前它只通过API提供，需要开发者自行构建应用场景。

在安全层面，Anthropic也给出了明确边界：他们并未训练Computer Use用于浏览互联网，Claude 3.5 Sonnet仍处于AI安全Level 2。他们的判断是，如果未来更高风险的模型再引入这类能力，风险可能被放大，因此“趁现在引入，提前应对问题更好”。这与OpenAI反复强调的“迭代式部署”理念高度一致。

Alex Albert在社交平台上的总结，则更具未来感：“Computer Use是全新人机交互形式的第一步。”他展示的案例中，Claude在浏览器中打开网站代码，在VS Code中新建文件并修复Bug，全程没有定制API，只是像人一样操作电脑。

总结

回看这期视频，一个清晰的脉络逐渐浮现：o1代表AI“开始真正会想”，而Anthropic的Computer Use，则代表AI“开始真正会做”。它现在笨拙、易错、受限，但方向无比明确。正如视频最后所说，这是AI进化树上的又一次分叉，也是通向真正智能体未来的一次试探。对我们每个人而言，问题不再是AI会不会接管电脑，而是当它真的像你一样操作电脑时，你准备好如何与它共处了吗？

关键词： AI Agent， Anthropic， Claude 3.5 Sonnet， Computer Use， OpenAI o1

事实核查备注：视频来源：The AI Daily Brief（2024-10-24）。涉及模型与产品：OpenAI o1、GPT-4o；Anthropic Claude 3.5 Sonnet、Claude 3.5 Haiku、Computer Use。AI分级框架：Level 1 聊天机器人，Level 2 推理者，Level 3 智能体，Level 4 创新型AI，Level 5 组织型AI。技术细节：Computer Use通过屏幕截图与像素计数实现鼠标操作；当前为实验性API功能；Claude 3.5 Sonnet处于AI安全Level 2。引用观点来自视频原述及Alex Albert公开表述。

返回文章列表