AI Agent 真正贵起来的，不是续航，而是交接成本-Louiscard

这周我越来越确定一件事。

大家盯着看的还是模型又跑长了多少小时，但真正开始拉开差距的，已经不是 agent 的续航数字，而是你能不能把一段工作交接给它。

不是「它会不会做一次」。

而是「你敢不敢把这件事交出去，并且指望它带着结果回来」。

1. 先别被「16 小时 agent」这种数字带着跑。

Every Context Window 那篇《The Fallacy of the 16-hour Agent》讲得很清楚：那张被疯转的长程 agent 榜单，16 小时对应的是 50% 成功率。把门槛抬到 80%，也就是更接近「真能托付」的水平，时间立刻掉到 3 小时多。

这件事为什么重要？

因为它提醒我们，agent 的问题已经不只是能力上限，而是可靠性交付。

3 小时其实已经很强了，问题不在这里。

问题在于，很多人看到 benchmark，就自然脑补成「可以放着不管，明天回来收成果」。这中间差的不是一点推理能力，差的是整段工作有没有被切成一个 agent 接得住的形状。

说白了，今天很多 agent 跑不远，不一定是模型不够强。

更可能是任务定义太糊、验收标准太松、上下文没铺好、出错后没有 guardrail。

越往后看，agent 像不像一个可托付的同事，取决于交接质量，不只取决于模型质量。

2. 所以人真正开始做的，不是「使用 AI」，而是给 AI 做 onboarding。

Noah Brier 在 Every 写的《The Culture of AI Engineering》我很认同。

他反对把 AI 编程叫「软件工厂」。因为工厂那套想的是一致性、缺陷率、Six Sigma。但做软件最难的，从来不是把代码机械地产出来，而是先把 standards、architecture、specs、plans 这些上层结构想明白。

这个判断很关键，因为 AI 现在猛冲的，主要还是 code 这一层。

如果下面几层没人管，它只是在帮你更快地产出一堆以后更难维护的东西。这也是为什么我现在越来越觉得，很多人在干的其实不是「学会一个 AI 工具」，而是在做另一件更底层的活：

写规范
定边界
塞记忆
配环境
设验收

这些动作以前不显眼，现在反而越来越值钱。你不是在给 agent 发指令，你是在决定它「像谁工作」。

这句话放到团队里更明显，一个团队的 AI 水平，不是看谁最会写 prompt，而是看这个团队有没有把自己的判断方式、交接标准、风格偏好和兜底规则，提前写进系统。

3. 再往前走一步，环境本身也开始变成 agent 的工作台。

电脑玩物那篇 Codex for Chrome 实测值得看，不是因为它又展示了几个炫技 demo，而是它把一个很现实的问题捅破了：

很多 AI 工作流卡住，不是模型不会，而是它摸不到真实环境。

它没有登录态，它进不去你平时真的在用的网页，它拿不到你已经积累好的账户、历史、上下文。一旦 agent 能直接用你已经登录的 Chrome，很多事的性质就变了，以前要先找 MCP、接 API、折腾权限，现在它直接在真实工作环境里接活。

这背后的变化很大。

以前我们优化的是「界面怎么让人更好点、更好填、更好切换」，以后越来越多产品要优化的，是另一件事：

指令怎么下更清楚
回执怎么回更可读
中间状态怎么更好接管
失败后怎么更好恢复

也就是说，AI 时代很多软件真正要优化的，不再只是 UI，而是 handoff。

4. 所以这周更值得问的，不是「agent 能不能替我做事」，而是「我有没有把事交给 agent 的能力」。

我现在越来越相信，下一阶段真正贵起来的，是四种东西：

上下文整理能力：把背景、目标、约束、已有材料压成 agent 接得住的输入
环境准备能力：把账号、权限、工具、目录、数据源提前铺好
验收定义能力：知道什么叫做完，什么叫做跑偏
接管恢复能力：agent 失败之后，人能不能快速接回来，不至于推倒重来

这四件事，本质上都不是模型参数。

它们更像新的工作设计能力。

个人层面，这会让会「自己搭台子」的人越来越值钱。
团队层面，这会让会「写清楚组织接口」的团队越来越快。

所以如果你这周也在折腾 agent，我觉得最值得试的不是再追一个新 benchmark，而是挑一件你最近总要反复亲自盯的事，问自己四个问题：

1. 这件事如果交给 agent，它第一步最容易卡在哪个上下文缺口？
2. 它失败时，我有没有一个接管点，而不是只能重来？
3. 我有没有把「做完」的标准写出来，而不是靠感觉判断？
4. 我现在是在补模型能力，还是在补交接能力？

很多人会发现，自己真正缺的不是更强的 agent，而是一个能把工作交出去、再拿得回来的系统。

AI Agent 真正贵起来的，不是续航，而是无法持续降低的交接成本。

Sources

THE END

AI Agent 真正贵起来的，不是续航，而是交接成本

1. 先别被「16 小时 agent」这种数字带着跑。

2. 所以人真正开始做的，不是「使用 AI」，而是给 AI 做 onboarding。

3. 再往前走一步，环境本身也开始变成 agent 的工作台。

4. 所以这周更值得问的，不是「agent 能不能替我做事」，而是「我有没有把事交给 agent 的能力」。

Sources

请登录后发表评论

分类

书是解药｜2021 CW 41

胆怯，是我最想甩掉的心灵封印

2023 CW35 | 如何消除无效会议

放弃幻想，回到基础｜2022 CW10

Call High 不慌：客户高层沟通实战指南

又贪婪，又慈悲｜2021 CW49