AI Agent 真正贵起来的,不是续航,而是交接成本

这周我越来越确定一件事。

大家盯着看的还是模型又跑长了多少小时,但真正开始拉开差距的,已经不是 agent 的续航数字,而是你能不能把一段工作交接给它。

不是「它会不会做一次」。

而是「你敢不敢把这件事交出去,并且指望它带着结果回来」。

1. 先别被「16 小时 agent」这种数字带着跑。

Every Context Window 那篇《The Fallacy of the 16-hour Agent》 讲得很清楚:那张被疯转的长程 agent 榜单,16 小时对应的是 50% 成功率。把门槛抬到 80%,也就是更接近「真能托付」的水平,时间立刻掉到 3 小时多。

这件事为什么重要?

因为它提醒我们,agent 的问题已经不只是能力上限,而是可靠性交付。

3 小时其实已经很强了,问题不在这里。

问题在于,很多人看到 benchmark,就自然脑补成「可以放着不管,明天回来收成果」。这中间差的不是一点推理能力,差的是整段工作有没有被切成一个 agent 接得住的形状。

说白了,今天很多 agent 跑不远,不一定是模型不够强。

更可能是任务定义太糊、验收标准太松、上下文没铺好、出错后没有 guardrail。

越往后看,agent 像不像一个可托付的同事,取决于交接质量,不只取决于模型质量。

2. 所以人真正开始做的,不是「使用 AI」,而是给 AI 做 onboarding。

Noah Brier 在 Every 写的《The Culture of AI Engineering》 我很认同。

他反对把 AI 编程叫「软件工厂」。因为工厂那套想的是一致性、缺陷率、Six Sigma。但做软件最难的,从来不是把代码机械地产出来,而是先把 standards、architecture、specs、plans 这些上层结构想明白。

这个判断很关键,因为 AI 现在猛冲的,主要还是 code 这一层。

如果下面几层没人管,它只是在帮你更快地产出一堆以后更难维护的东西。这也是为什么我现在越来越觉得,很多人在干的其实不是「学会一个 AI 工具」,而是在做另一件更底层的活:

  • 写规范
  • 定边界
  • 塞记忆
  • 配环境
  • 设验收

这些动作以前不显眼,现在反而越来越值钱。你不是在给 agent 发指令,你是在决定它「像谁工作」。

这句话放到团队里更明显,一个团队的 AI 水平,不是看谁最会写 prompt,而是看这个团队有没有把自己的判断方式、交接标准、风格偏好和兜底规则,提前写进系统。

3. 再往前走一步,环境本身也开始变成 agent 的工作台。

电脑玩物那篇 Codex for Chrome 实测 值得看,不是因为它又展示了几个炫技 demo,而是它把一个很现实的问题捅破了:

很多 AI 工作流卡住,不是模型不会,而是它摸不到真实环境。

它没有登录态,它进不去你平时真的在用的网页,它拿不到你已经积累好的账户、历史、上下文。一旦 agent 能直接用你已经登录的 Chrome,很多事的性质就变了,以前要先找 MCP、接 API、折腾权限,现在它直接在真实工作环境里接活。

这背后的变化很大。

以前我们优化的是「界面怎么让人更好点、更好填、更好切换」,以后越来越多产品要优化的,是另一件事:

  • 指令怎么下更清楚
  • 回执怎么回更可读
  • 中间状态怎么更好接管
  • 失败后怎么更好恢复

也就是说,AI 时代很多软件真正要优化的,不再只是 UI,而是 handoff。

4. 所以这周更值得问的,不是「agent 能不能替我做事」,而是「我有没有把事交给 agent 的能力」。

我现在越来越相信,下一阶段真正贵起来的,是四种东西:

  • 上下文整理能力:把背景、目标、约束、已有材料压成 agent 接得住的输入
  • 环境准备能力:把账号、权限、工具、目录、数据源提前铺好
  • 验收定义能力:知道什么叫做完,什么叫做跑偏
  • 接管恢复能力:agent 失败之后,人能不能快速接回来,不至于推倒重来

这四件事,本质上都不是模型参数。

它们更像新的工作设计能力。

  • 个人层面,这会让会「自己搭台子」的人越来越值钱。
  • 团队层面,这会让会「写清楚组织接口」的团队越来越快。

所以如果你这周也在折腾 agent,我觉得最值得试的不是再追一个新 benchmark,而是挑一件你最近总要反复亲自盯的事,问自己四个问题:

1. 这件事如果交给 agent,它第一步最容易卡在哪个上下文缺口?
2. 它失败时,我有没有一个接管点,而不是只能重来?
3. 我有没有把「做完」的标准写出来,而不是靠感觉判断?
4. 我现在是在补模型能力,还是在补交接能力?

很多人会发现,自己真正缺的不是更强的 agent,而是一个能把工作交出去、再拿得回来的系统

AI Agent 真正贵起来的,不是续航,而是无法持续降低的交接成本。

Sources

THE END
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容