2026年不会是更强模型之年，而是AI Harness全面上位的一年

AI PM 编辑部 · 2026年05月17日 · 45 阅读 · AI/人工智能

检索增强生成 Token 上下文窗口 AI Agent 推理提示工程通用人工智能 Claude Code GPT-3.5

正在加载视频...

视频章节

如果你还在纠结用 GPT-4 还是更大的模型，IBM 的 Tejas Kumar 已经给了你一个更冷静、也更残酷的答案：真正决定 AI 能不能落地的，不是模型能力，而是 Harness。这场 18 分钟的演讲，把无数工程师踩过的坑一次性摊在台面上。

2026年不会是更强模型之年，而是AI Harness全面上位的一年

如果你还在纠结用 GPT-4 还是更大的模型，IBM 的 Tejas Kumar 已经给了你一个更冷静、也更残酷的答案：真正决定 AI 能不能落地的，不是模型能力，而是 Harness。这场 18 分钟的演讲，把无数工程师踩过的坑一次性摊在台面上。

一个反直觉的真相：你花钱租的，是个不听话的黑盒

Tejas 一上来就点破了行业里一个大家心照不宣、却很少被直说的事实：我们每天都在“交房租”。

不是给办公室，而是给算力、给推理、给 token。模型越强、调用越多，账单越像失控的信用卡。更要命的是——你租来的这个模型，是个彻头彻尾的黑盒。

不可控、不可预测、非确定性（non-deterministic）。你今天跑通的流程，明天可能就“幻觉”给你一个完全自信却彻底错误的答案。

所以问题不是“模型够不够聪明”，而是：当模型不听话的时候，谁来兜底？

Tejas 给出的答案非常明确：Harness 的存在，核心目标只有一个词——“可靠性（Reliability）”。不是让模型更聪明，而是确保你构建的 Agent 每一次都在可控范围内做事。

Harness 到底是什么？别再把它当成“高级测试集”

很多人第一次听到 Harness，会下意识把它理解成“测试框架”或“自动化校验”。Tejas 直接否定了这个偷懒的定义。

他用的类比非常形象：登山者的安全带、狗的牵引绳。

Harness 的本质，不是检查结果，而是“约束行为”。它把一个不稳定、会乱跑的系统，锚定在一个你能控制的现实世界里。

在 AI Agent 语境下，Agent Harness 指的是：模型之外、但决定模型能否安全工作的所有东西。包括但不限于：
- 工具注册表（它能用什么，不能用什么）
- 上下文管理与压缩（否则 token 直接破产）
- Guardrails（边界条件）
- Agent Loop（什么时候继续、什么时候停）
- Verify Step（结果不是‘看起来对’，而是被验证过）

一句话总结：Harness 是把黑盒模型“接地”的工程系统，而不是提示词技巧。

一场失败的 Demo，比十页 PPT 更诚实

这场演讲最精彩的部分，不是概念，而是翻车。

Tejas 现场演示了一个“穷人版 Harness”：用 GPT-3.5 做一个 Hacker News 浏览器 Agent，自动登录、点击、点赞。听起来很简单，对吧？

结果第一次运行就翻车：Agent 明明没登录成功，却一本正经地“撒谎”，告诉你已经点了赞。

这里有个关键判断：
- 该不该“prompt 它更狠一点”？

Tejas 的回答很干脆：不，这是 Harness 的工作，不是提示工程的工作。

接下来他一步步加上真正有用的东西：
- 最大迭代次数，防止 Agent 无限循环
- 最大消息数，控制上下文爆炸
- 上下文压缩器，把历史变成可用信息
- 最重要的：Verify Step，用程序确认“点赞是否真的发生”

当验证失败时，Agent 不再编故事，而是直接失败。这一刻，Harness 才真正成立。

为什么他说：2026 年，是 Harness 的年份

在结尾，Tejas 把话说得非常直白：模型一定会越来越便宜、越来越强，但它们永远是非确定性的。

企业真正需要的，不是“偶尔很聪明的模型”，而是“稳定、可复现、可审计的系统”。不管你用的是 GPT-3.5、Claude Code，还是未来的前沿模型，只要没有 Harness，本质上都不适合严肃生产环境。

他甚至给出了一个清晰的趋势判断：
- Prompt 不会消失，但不再是核心竞争力
- Agent 会越来越多，但 Harness 决定生死
- RAG、工具调用、Agent Loop，最终都会被统一进 Harness 思维

一句非常狠的总结是：未来不是“谁的模型更像 AGI”，而是“谁的 Harness 更像工程”。

总结

如果你是 AI 工程师，这场演讲给你的最大提醒是：别再把时间全砸在调 Prompt 上。真正拉开差距的，是你有没有为 Agent 设计“失败路径”、验证机制和边界条件。

如果你在做产品，更要意识到：用户不关心模型有多聪明，只关心系统会不会乱来。

也许你不需要更大的模型，而是需要第一个真正属于你系统的 Harness。思考一个问题：如果你的 Agent 今天开始撒谎，你的系统能不能第一时间发现，并让它停下来？

关键词： AI Harness， AI Agent，可靠性工程，上下文管理，检索增强生成

事实核查备注：需要核查：1）演讲者身份：Tejas Kumar 是否为 IBM AI Developer Advocate；2）视频发布时间：2026-05-17；3）演讲中是否明确提出“2026 年是 Harness 之年”的表述；4）Demo 使用的模型是否为 GPT-3.5；5）提到的工具如 Claude Code 是否仅作为示例出现

返回文章列表