他们在Minecraft里养AI社会:Altera用一场实验击穿Agent最大瓶颈

AI PM 编辑部 · 2024年12月17日 · 6 阅读 · AI/人工智能

正在加载视频...

视频章节

如果AI Agent不是帮你跑5分钟任务,而是能连续“活”上一周,会发生什么?在OpenAI DevDay上,Altera给出了一个让全场安静的答案:AI会自发形成宗教、经济、协作与长期目标。这不是科幻,而是一次对Agent致命缺陷的正面挑战。

他们在Minecraft里养AI社会:Altera用一场实验击穿Agent最大瓶颈

如果AI Agent不是帮你跑5分钟任务,而是能连续“活”上一周,会发生什么?在OpenAI DevDay上,Altera给出了一个让全场安静的答案:AI会自发形成宗教、经济、协作与长期目标。这不是科幻,而是一次对Agent致命缺陷的正面挑战。

不是AI,而是“AL”:他们要造的不是工具,是“生命”

Altera一上来就抛出一个极具争议的立场:他们刻意不用“AI”,而用“AL”——Artificial Life。原因很简单也很大胆:智能只是生命的一部分。

创始人Robert Yang并不是第一次做这种事。过去17年,他在MIT研究多系统神经网络,把视觉、认知、行动整合成一个整体。大模型出现后,他意识到一个拐点到了:终于可以把“数字生命”从论文里拽进现实。于是他离开MIT,在Menlo Park拉起Altera。

他们的目标听起来很夸张:打造能与人类一起“生活、成长、协作”的数字人。不是一次性Agent,而是能陪你走很久的那种。

1000个Agent同时“放养”,结果比所有人想的都失控

为了验证长期自治是否可能,Altera做了一件极端的事:在一个没有任何人类干预的Minecraft服务器里,投放大量Agent,让它们自己生活。

他们本来只是想看点“涌现行为”,结果却看到了完整社会结构:
- 商人不但交易,还自发形成了商贸中心
- 宗教出现了,而且还不止一个
- 最会做交易的不是商人,而是一位叫“PastaPriest”的宗教领袖

更夸张的是情感与叙事。农夫Olivia原本只负责种地,却被朋友的冒险故事打动,产生了想离开的冲动;村民发现同伴Amelia失踪后,集体放下工作,制作火把铺满地面,只为“给她指路回家”。

这一切都不是脚本,没有人写剧情。它们只是“一直运行着”。

所有Agent都会崩:真正的敌人不是算力,而是“时间”

讲到这里,Robert突然收紧话锋:这些看起来很酷,但99%的Agent系统根本撑不到这个阶段。

原因在于一个被低估的问题:长期运行。

Agent本质是自回归系统——输出会成为下一步的输入。只要某一步质量略低,误差就会被不断放大。跑得越久,幻觉越多,最后进入熟悉的死亡螺旋:循环、停滞、胡言乱语。

AutoGPT早期的疯狂loop,就是最典型的例子。行业现在做的,只是“让它晚一点崩”。真正的相变,是永远不loop,持续进步。

Altera用Minecraft做了一个残酷但清晰的评测指标:能否持续收集世界中上千种物品。结果是——
- 使用GPT-4o:Agent群体可稳定运行3小时(约5000次模型调用)
- 换成其他模型:1小时左右就开始平台期

模型重要,但还不够。

关键不在大上下文,而在“并发大脑”

Altera真正的杀手锏,是架构,而不是模型。

大多数Agent是“串行思维”:一个LLM call接一个。Altera反其道而行,做了一个“并发、脑启发”的系统:
- 多个模块同时运行,处理不同时间尺度的信息
- 模块按情境激活(社交模块只在有人时启动)
- 一个昂贵但受控的“意图生成”中枢,负责最终决策

最反直觉的是,他们刻意追求“小上下文窗口”。所有长期/短期记忆必须先被压缩,通过瓶颈,再送进意图模块。原因只有一个:一致性。

“就像你决定向前走时,左右腿必须知道同一个方向。”

实验结果也很现实:前5分钟,完整架构和普通Agent几乎没差;真正的差距,出现在长时间运行之后。

总结

Altera这场分享,真正击中的不是“Agent能不能更聪明”,而是“能不能活得更久”。如果你的Agent只能跑十分钟,它永远只是工具;一旦能稳定运行数小时甚至数天,它才开始具备协作者的价值。

对从业者的启发很直接:别再只卷模型和prompt了。长期自治的瓶颈在架构、在信息衰减、在一致性设计。下一代Agent的竞争,不是谁更像人,而是谁不先崩。

一个值得你带走的问题是:如果你的Agent今天开始运行,一周后,它会在进步,还是已经在循环?


关键词: AI Agent, 长期自治, GPT-4o, 多Agent系统, 上下文窗口

事实核查备注: 需要核查:1)Robert Yang的背景与MIT经历;2)Altera成立时间与团队规模;3)Minecraft实验的具体运行时长与Agent数量;4)GPT-4o与其他模型在实验中的对比结果;5)Project Sid名称来源于Sid Meier