这周我越来越确定一件事。
大家盯着看的还是模型又跑长了多少小时,但真正开始拉开差距的,已经不是 agent 的续航数字,而是你能不能把一段工作交接给它。
不是「它会不会做一次」。
而是「你敢不敢把这件事交出去,并且指望它带着结果回来」。
1. 先别被「16 小时 agent」这种数字带着跑。
Every Context Window 那篇《The Fallacy of the 16-hour Agent》 讲得很清楚:那张被疯转的长程 agent 榜单,16 小时对应的是 50% 成功率。把门槛抬到 80%,也就是更接近「真能托付」的水平,时间立刻掉到 3 小时多。
这件事为什么重要?
因为它提醒我们,agent 的问题已经不只是能力上限,而是可靠性交付。
3 小时其实已经很强了,问题不在这里。
问题在于,很多人看到 benchmark,就自然脑补成「可以放着不管,明天回来收成果」。这中间差的不是一点推理能力,差的是整段工作有没有被切成一个 agent 接得住的形状。
说白了,今天很多 agent 跑不远,不一定是模型不够强。
更可能是任务定义太糊、验收标准太松、上下文没铺好、出错后没有 guardrail。
越往后看,agent 像不像一个可托付的同事,取决于交接质量,不只取决于模型质量。
2. 所以人真正开始做的,不是「使用 AI」,而是给 AI 做 onboarding。
Noah Brier 在 Every 写的《The Culture of AI Engineering》 我很认同。
他反对把 AI 编程叫「软件工厂」。因为工厂那套想的是一致性、缺陷率、Six Sigma。但做软件最难的,从来不是把代码机械地产出来,而是先把 standards、architecture、specs、plans 这些上层结构想明白。
这个判断很关键,因为 AI 现在猛冲的,主要还是 code 这一层。
如果下面几层没人管,它只是在帮你更快地产出一堆以后更难维护的东西。这也是为什么我现在越来越觉得,很多人在干的其实不是「学会一个 AI 工具」,而是在做另一件更底层的活:
- 写规范
- 定边界
- 塞记忆
- 配环境
- 设验收
这些动作以前不显眼,现在反而越来越值钱。你不是在给 agent 发指令,你是在决定它「像谁工作」。
这句话放到团队里更明显,一个团队的 AI 水平,不是看谁最会写 prompt,而是看这个团队有没有把自己的判断方式、交接标准、风格偏好和兜底规则,提前写进系统。
3. 再往前走一步,环境本身也开始变成 agent 的工作台。
电脑玩物那篇 Codex for Chrome 实测 值得看,不是因为它又展示了几个炫技 demo,而是它把一个很现实的问题捅破了:
很多 AI 工作流卡住,不是模型不会,而是它摸不到真实环境。
它没有登录态,它进不去你平时真的在用的网页,它拿不到你已经积累好的账户、历史、上下文。一旦 agent 能直接用你已经登录的 Chrome,很多事的性质就变了,以前要先找 MCP、接 API、折腾权限,现在它直接在真实工作环境里接活。
这背后的变化很大。
以前我们优化的是「界面怎么让人更好点、更好填、更好切换」,以后越来越多产品要优化的,是另一件事:
- 指令怎么下更清楚
- 回执怎么回更可读
- 中间状态怎么更好接管
- 失败后怎么更好恢复
也就是说,AI 时代很多软件真正要优化的,不再只是 UI,而是 handoff。
4. 所以这周更值得问的,不是「agent 能不能替我做事」,而是「我有没有把事交给 agent 的能力」。
我现在越来越相信,下一阶段真正贵起来的,是四种东西:
- 上下文整理能力:把背景、目标、约束、已有材料压成 agent 接得住的输入
- 环境准备能力:把账号、权限、工具、目录、数据源提前铺好
- 验收定义能力:知道什么叫做完,什么叫做跑偏
- 接管恢复能力:agent 失败之后,人能不能快速接回来,不至于推倒重来
这四件事,本质上都不是模型参数。
它们更像新的工作设计能力。
- 个人层面,这会让会「自己搭台子」的人越来越值钱。
- 团队层面,这会让会「写清楚组织接口」的团队越来越快。
所以如果你这周也在折腾 agent,我觉得最值得试的不是再追一个新 benchmark,而是挑一件你最近总要反复亲自盯的事,问自己四个问题:
1. 这件事如果交给 agent,它第一步最容易卡在哪个上下文缺口?
2. 它失败时,我有没有一个接管点,而不是只能重来?
3. 我有没有把「做完」的标准写出来,而不是靠感觉判断?
4. 我现在是在补模型能力,还是在补交接能力?
很多人会发现,自己真正缺的不是更强的 agent,而是一个能把工作交出去、再拿得回来的系统。
AI Agent 真正贵起来的,不是续航,而是无法持续降低的交接成本。







暂无评论内容