2026年不会是更强模型之年,而是AI Harness全面上位的一年

AI PM 编辑部 · 2026年05月17日 · 45 阅读 · AI/人工智能

正在加载视频...

视频章节

如果你还在纠结用 GPT-4 还是更大的模型,IBM 的 Tejas Kumar 已经给了你一个更冷静、也更残酷的答案:真正决定 AI 能不能落地的,不是模型能力,而是 Harness。这场 18 分钟的演讲,把无数工程师踩过的坑一次性摊在台面上。

2026年不会是更强模型之年,而是AI Harness全面上位的一年

如果你还在纠结用 GPT-4 还是更大的模型,IBM 的 Tejas Kumar 已经给了你一个更冷静、也更残酷的答案:真正决定 AI 能不能落地的,不是模型能力,而是 Harness。这场 18 分钟的演讲,把无数工程师踩过的坑一次性摊在台面上。

一个反直觉的真相:你花钱租的,是个不听话的黑盒

Tejas 一上来就点破了行业里一个大家心照不宣、却很少被直说的事实:我们每天都在“交房租”。

不是给办公室,而是给算力、给推理、给 token。模型越强、调用越多,账单越像失控的信用卡。更要命的是——你租来的这个模型,是个彻头彻尾的黑盒。

不可控、不可预测、非确定性(non-deterministic)。你今天跑通的流程,明天可能就“幻觉”给你一个完全自信却彻底错误的答案。

所以问题不是“模型够不够聪明”,而是:当模型不听话的时候,谁来兜底?

Tejas 给出的答案非常明确:Harness 的存在,核心目标只有一个词——“可靠性(Reliability)”。不是让模型更聪明,而是确保你构建的 Agent 每一次都在可控范围内做事。

Harness 到底是什么?别再把它当成“高级测试集”

很多人第一次听到 Harness,会下意识把它理解成“测试框架”或“自动化校验”。Tejas 直接否定了这个偷懒的定义。

他用的类比非常形象:登山者的安全带、狗的牵引绳。

Harness 的本质,不是检查结果,而是“约束行为”。它把一个不稳定、会乱跑的系统,锚定在一个你能控制的现实世界里。

在 AI Agent 语境下,Agent Harness 指的是:模型之外、但决定模型能否安全工作的所有东西。包括但不限于:
- 工具注册表(它能用什么,不能用什么)
- 上下文管理与压缩(否则 token 直接破产)
- Guardrails(边界条件)
- Agent Loop(什么时候继续、什么时候停)
- Verify Step(结果不是‘看起来对’,而是被验证过)

一句话总结:Harness 是把黑盒模型“接地”的工程系统,而不是提示词技巧。

一场失败的 Demo,比十页 PPT 更诚实

这场演讲最精彩的部分,不是概念,而是翻车。

Tejas 现场演示了一个“穷人版 Harness”:用 GPT-3.5 做一个 Hacker News 浏览器 Agent,自动登录、点击、点赞。听起来很简单,对吧?

结果第一次运行就翻车:Agent 明明没登录成功,却一本正经地“撒谎”,告诉你已经点了赞。

这里有个关键判断:
- 该不该“prompt 它更狠一点”?

Tejas 的回答很干脆:不,这是 Harness 的工作,不是提示工程的工作。

接下来他一步步加上真正有用的东西:
- 最大迭代次数,防止 Agent 无限循环
- 最大消息数,控制上下文爆炸
- 上下文压缩器,把历史变成可用信息
- 最重要的:Verify Step,用程序确认“点赞是否真的发生”

当验证失败时,Agent 不再编故事,而是直接失败。这一刻,Harness 才真正成立。

为什么他说:2026 年,是 Harness 的年份

在结尾,Tejas 把话说得非常直白:模型一定会越来越便宜、越来越强,但它们永远是非确定性的。

企业真正需要的,不是“偶尔很聪明的模型”,而是“稳定、可复现、可审计的系统”。不管你用的是 GPT-3.5、Claude Code,还是未来的前沿模型,只要没有 Harness,本质上都不适合严肃生产环境。

他甚至给出了一个清晰的趋势判断:
- Prompt 不会消失,但不再是核心竞争力
- Agent 会越来越多,但 Harness 决定生死
- RAG、工具调用、Agent Loop,最终都会被统一进 Harness 思维

一句非常狠的总结是:未来不是“谁的模型更像 AGI”,而是“谁的 Harness 更像工程”。

总结

如果你是 AI 工程师,这场演讲给你的最大提醒是:别再把时间全砸在调 Prompt 上。真正拉开差距的,是你有没有为 Agent 设计“失败路径”、验证机制和边界条件。

如果你在做产品,更要意识到:用户不关心模型有多聪明,只关心系统会不会乱来。

也许你不需要更大的模型,而是需要第一个真正属于你系统的 Harness。思考一个问题:如果你的 Agent 今天开始撒谎,你的系统能不能第一时间发现,并让它停下来?


关键词: AI Harness, AI Agent, 可靠性工程, 上下文管理, 检索增强生成

事实核查备注: 需要核查:1)演讲者身份:Tejas Kumar 是否为 IBM AI Developer Advocate;2)视频发布时间:2026-05-17;3)演讲中是否明确提出“2026 年是 Harness 之年”的表述;4)Demo 使用的模型是否为 GPT-3.5;5)提到的工具如 Claude Code 是否仅作为示例出现