中国开云 ICML 2026|智能体的下半场: 为什么「答对」仍是不够了?

发布日期：2026-05-25 02:17 作者：admin 来源：未知点击：152

往常两年 Agent 相干更像一场工程竞赛 —— 谁的推理链更长、谁的器用箱更大、谁的 workflow 更复杂。但 Agent 的下半场不再是拼花活，而是把它酿成一门科学：不仅问「它 work 不 work？」，更要问「它为什么work」，以及什么时候才应该这样作念？」

这篇著述作家团队想聊聊在 ICML 2026 建议的Theory of Agent (ToA)—— 以及它如何解说当下最前沿的长险峻文、推理模子、器用使用、自进化智能体背后那根共同的干线。

对于这项使命

Theory of Agent (ToA) 是由爱丁堡大学集会普林斯顿大学、UIUC、西北大学、香港汉文大学共同建议的智能体和谐表面，已被 ICML 2026 以 Position Paper 的时局接纳。

形貌地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/

作家团队阴事了现时 Agent / LLM 相干的多条干线 —— 从 ReAct 式推理与器用使用，到 RL 对皆、天下模子、科学发现智能体 —— 这份使命也正是这些干线聚集后的一次尝试：把 Agent 从一套工程手段，酿成一门不错被推理、被证伪、被累积的科学。

一个你战胜见过的场景：两份不异满分的试卷

假想合并套试鬈发到两个学新手里。

同学 A 走的是闭卷检修模式。整套题他靠我方：回忆学问点、作念推理、验算，必要时在脑子里再行组织一遍 —— 他把检修当成考验基础和念念维的契机；

同学 B 走的是开卷检修模式。每一谈题他都上网查、问 ChatGPT、翻参考谜底，平直抄过来就交。

两份卷子点窜下来，都是 100 分。真挚要是只看分数，这两个东谈主是一样的。但只消你当过真挚，或者我方读过书，你就知谈这两个东谈主一学期之后的差距会相等大：

同学 A : 哪怕中间作念错过、绕弯过，每作念一题，他那根叫「解题直观」的东西都在被加粗一次。期末的时候，不异一谈题他能更快、更稳地作念对，何况能举一反三。

同学 B : 他也作念了一学期题，但他脑子里的学问存量莫得任何变化。到了必须闭卷的那一次检修 —— 或者任何一次莫得 ChatGPT 可用的场面 —— 他会须臾发现我方什么都不会。

两份满分，两条气运皆备相背的成长弧线。

先暴露一个常见歪曲: 这个故事里毫不是说「同学 A 不会用搜索引擎」或者「用器用是赖事」。适值相背 —— A 也不错、也应该在需要的时候用器用 (检修是譬如，确切天下里的 Agent 虽然会遭逢靠我方非论如何答不出来的题，这时候必须调用外部信息)。

简直的关键是：能靠我方答对的题，就无谓为了省事而默许抄谜底。器用该在「靠我方不够」的时候上场，而不是在「根柢还没试过」的时候就被默许触发。至于「什么叫靠我方不够」「什么叫简直必需」，正是背面要花篇幅讲了了的事 —— 作家会把它精准成一个叫学问鸿沟（knowledge boundary) 的东西。>

换到 Agent 身上，这两类活动皆备平行：

图 1. 不异正确的谜底，背后可能是两种迥然相异的资源分派。Agent A 什么都默许靠外部器用，里面推理本领被绕开、无法矜重；Agent B 在里面能科罚时就里面科罚 —— 但并不根除在简直需要时使用器用 —— 推理本领在熟习中被强化。

这不是一个设计问题。这是一个界说问题：什么叫一个「好」Agent? 要是「好」只意味着「答对」，那开卷同学和闭卷同学没区别。但要是「好」还意味着「越作念越机灵」，咱们想要的显著是后者。而这恰正是当今绝大无数 Agent 教养范式看不见的东西。

凤凰体育(FHSports)官方网站

当下智能体的四种失败模式，其实是合并个病

往常两年，Agent 系统暴涌现了许多彼此看似无关的问题。有些模子在还没简直理免除务时就急于行动，不断切换念念路；有些则在浮浅问题上堕入冗长推理，以致为「2+3 等于几」生成十几条访佛 reasoning path。另一类问题则发生在与外部天下的交互上：模子要么迟迟不肯调用本该使用的器用，要么把正本几步就能完成的操作拆成漫长而访佛的轨迹。

这些知足往往被分别归类为 reasoning、planning 或 tool-use 的问题，因此业界也民俗于一一修补：过度推理就增多长度处分，器用花费就经管 action budget，行动不及就强化器用调用本领。

但要是把这些知足放在合并个视角下，会发现它们其实分享着合并个更底层的结构：Agent 遥远在面临一个接续存在的决策 —— 下一步究竟应该赓续依赖里面念念考，照旧转向外部天下取得信息。

不同的失败模式，践诺上仅仅这个决策在不同方进取的失衡。答早了是 underthinking，答晚了是 overthinking，问少了是 underacting，问多了是 overacting。不是四个安然的问题，而是合并个病 —— 在不战胜性下的决策错配 —— 以四个标的发达出来。

下半场的使命，不是赓续打补丁，而是治这个病。

换一个视角：推理和行动，是一体两面

要是顺着这个问题赓续往下推，一个更当然的不雅察会出现：所谓「推理」和「行动」，随机是两种践诺不同的阶段。对于 Agent 来说，它们更像是在不同位置取得信息的两种神色。链式念念考、反念念和任务分解，践诺上是在再行组织模子仍是领有的信息；而搜索、API 调用、代码实行等活动，则是在向外部天下提取模子现时并不具备的信息。

推理和行动，是两种用来裁汰合并种不战胜性 (epistemic uncertainty，剖析不战胜性) 的器用。它们的离别只在于信息开端。

里面剖析器用 (链式念念考、反念念、分解)：把 Agent 仍是有的信息再行组织一遍；

外部物理器用(搜索、API、UI 操作、实行代码)：注入 Agent 莫得的信息。

两者都在裁汰不战胜性，只不外一个发生在里面，一个发生在外部，这样智能体的活动轨迹就酿成了：

图 2. 左：传统 ReAct 把推理和行动混在通盘当作念两个阶段。右：ToA 把 Agent 手脚一个和谐的政策，它在两类器用里作念选择 —— 里面剖析器用查的是「我方这个天下模子」，外部物理器用查的是「确切天下」。

脚下，哪种器用能最快裁汰我对这个任务的不战胜性？

这亦然为什么长险峻文、RAG、器用使用、agentic RL 其实都在指向合并件事，沿着「里面照旧外部」这一根轴的不同分派。

每个 Agent 都有我方的「会作念题」范围

一朝推理和行动平起平坐，相干的中枢对象就不再是「政策」，而是：这个 Agent 靠我方能科罚的任务，和需要外部匡助才能科罚的任务，鸿沟在那里？

ToA 把这件事精准化了:

图 3. 左：一个 Agent 的「学问鸿沟」把它能里面科罚的任务和剩下的天下任务离隔。中：多个 Agent 都能里面科罚的部分 ——「最小任务集」。右：这群 Agent 中纵情一个能里面科罚的并集 ——「最大任务集」。

最中枢的一条：脑力功绩的「总量守恒」

而这个总额和政策无关。咱们不错把死力从里面挪到外部，也不错反过来，但总量是定的。类似于咱们刚开动举的阿谁例子，学生 A 和学生 B 等于在使用不同的分派政策去科罚合并套试卷。

从这个角度再看器用使用，会发现一个容易被忽略的事实：外部器用并不会简直抹杀任务自己的信息背负。它们仅仅把正本需要由模子里面完成的剖析经过，滚动到了外部系统上。一个复杂问题之是以变得「容易」，许多时候不是因为问题自己被简化了，而是因为求解经过被再行分派了。

用生存譬如：你要作念一谈红烧肉。

咱们不错全靠我方的本事：选肉、焯水、糖色、火候一手拿抓。这是里面死力拉满。

咱们也不错点一份半制品，回家热一下，或者平直点外卖。这是外部死力拉满。

咱们还不错用预制菜 + 我方炖十分钟，均衡一下。

Agent 活动的几何：不同点的含义以及最优活动

既然「剖析死力」是一个在两个维度间分派的固定预算，那 Agent 的活动就活在一个二维平面上，如下图所示。

图 4. 横轴是里面推理干与，纵轴是外部行动干与。斜线是最小死力前沿 βE_{int}+E_{ext}=E^*。左：任务在里面可解，两种死力不错解放互换；右：任务超出里面本领，外部死力存在一个不可削减的底线。*

图上标了三个关键点:

点 A 的「全能性」恰正是它的危急。一朝有一个满盈颖异的外部 Agent 可调用，A 不管任务在鸿沟的哪一侧都能走通。这等于为什么只奖励正确性的教养会当然漂移到左上方的 A 点隔壁 —— 它是通往奖励最宽解、最低风险的旅途。

用实习生的例子类比：小 A 永远都能「对」。雇主只消看谜底，他没错。但一年下来，他莫得学会任何一谈题的内在逻辑 —— 因为他莫得给我方「尝试用大脑」的契机。点 A 等于阿谁「永远搜一下就行」的坑。

等等，那 AC 和 AB 之间呢？

这是一个秘要但相等伏击的点。A、B、C 不是仅有的三个「正确谜底」。

那它们之间有什么区别？——区别不是「优不优」，而是「偏好不同」。

对里面可解的任务 (线段AC)，表里死力不错解舍弃换:

延迟敏锐的部署，也许更偏 A (一次外部调用快、干脆);

安全敏锐、或外部调用很贵的部署，更偏 C (不要支吾触发现实天下的动作);

老本中性的部署，选个中间点就好。

对外部必需的任务 (线段AB)，外部死力的底线不可砍，开云·体育中国官方网站但在这条底线之上，不异存在一个偏好谱:

换句话说，前沿是一整条帕累托最优弧线， A、B、C 仅仅三个代表性的端点。不同的业务场景 —— 安全、延迟、老本、合规 —— 沿着这条弧线选择不同的位置，都是对的。

那条斜线的斜率 β，到底在说什么？

β 的大小决定了那条斜线的倾角，也就决定了「帕累托最优前沿」的时局:

β 很大(想很贵、调低廉)：斜线陡，最优点合座偏向多调外部。直观：既然我这颗大脑高尚又慢，那能外包就外包。这解说了为什么「小模子 + 强器用链」时常是感性选择 —— 对一个 Llama-3-8B，让它我方写一堆 CoT 不如平直 RAG 出来给它看。

β 很小(调很贵、想低廉)：斜线缓，最优点合座偏向多靠里面。直观：每次触碰现实天下都要用钱 / 承担风险，那就能在脑子里科罚的就别出手。这解说了为什么推理模子 (o1/R1 那一代)把赌注押在「里面 scaling」上 —— 在它们的老本结构下，多推几步比调一次器用低廉得多。

这就把 ToA 和资源有限感性(resource-bounded rationality) 接上了：莫得放之四海皆准的「最好 Agent 活动」，唯有「在现时 β 下最好的活动」。一条产线上的 Agent 换个部署环境， β 变了，最优的分派政策就应该随着变。是以 ToA 的「对皆」不是「让 Agent 学会一种固定姿势」，而是让 Agent 学会识别 β ，并沿着 β 对应的那条前沿去分派死力。

那 ToA 反对的是什么？是 Agent「稀里隐隐地漂到 A」—— 不是因为 β 让 A 是最优解，而是因为只奖励正确性的教养让 A 酿成了最省事的惯性选择。合并个 A，被 β 论证过的 A 和被惯性带过来的 A ，在几何上无法折柳，但在 Agent 的经久发展上天壤之隔。对皆意味着有坚贞地选前沿上的某少许，而不是在教养惯性下默许滑到边缘。

捷径的代价：Agent 也会被「惯坏」

ToA 里有一个命题叫 Prop 3.9: 奉求引导的本领停滞—— 翻译成大口语：

要是 Agent 系统性地把本不错里面科罚的任务也外包出去，它的里面推理本领不会因为告戒累积而变强，哪怕它在旨趣上本不错变强。

这是 Agent 版的「小 A 问题」：他一直在外部器用缓助下答对，从未给我方「我方想想看」的契机，是以他的里面本领踏踏实实。看起来今天很能打，十年后照旧这个水平。

这其实亦然咱们不雅察许多东谈主类实习生、以致学生的功令 ——有捷径可交运，大脑就不会再去走长路。而大脑从长路走总结的那部分，才是「长本领」的那部分。Agent 的 RL 教养要是只看正确率，就会被这个最可靠的捷径眩惑往常，皆备复制不异的罗网。

是以近期那些加「器用使用处分」的步伐过后看，践诺上都在靠近 ToA 说的 effort-consistent alignment：既要答对，也要克制。

下半场的教养：四条路同期走，统筹兼顾

把上头统统内容落到教养，梗概是四条互补的旅途。每一条单独走都不够，它们各自拼凑「只求正确」这个病的一个侧面。

1.Agentic Post-training：Next-Tool Prediction

预教养的 next-token 把静态学问压进了参数，但它从没造就 Agent 如何通过交互去取得新学问。咱们主见把预教养蔓延到 next-tool prediction—— 把交互轨迹自己 (API 调用、UI 动作、环境查询) 酿成一等建模方针，和文本比肩。学会「在给定险峻文下，下一个该用哪个器用」，就不仅仅「会推理」，而是会决定如何裁汰不战胜性。这是一个新的 scaling 维度：不是储存更多学问，而是通过交互取得学问。

2. Agentic SFT：按本领定制的监督

规范 SFT 假定「好的器用使用」有和谐规范，在合并套示范上喂统统模子。ToA 说这个假定不设立：对小模子妥贴的器用使用，对大模子可能皆备是过剩—— 反过来也一样。一刀切的监督会让模子系统性地偏向示范者的里面任务集，而不是它我方的。

两条路：(1) 按本领定制数据集—— 每个模子有我方的 Q_{int}，这个干净但贵；(2)选择性求援—— 教养 Agent 只在低 solvability 的险峻文下主动外求，近似一个保守的本领上包 Q_{max}，更通用但精度和解。

3.Agentic RL：经过，而不仅仅欺压

前边说过，只奖励正确性势必漂向点 A—— 因为奉求是「最稳健得奖」的政策。有用的 agentic RL 必须奖励「如何答对」，不仅仅「答对」。OTC-PO 是一个具体例子：它明确处分无谓要的器用调用，把「克制」和「正确」同等对待。更广义地，RL 允许 Agent 学经过级偏好—— 什么时候想、什么时候作念、什么时候停 —— 这是只看欺压的监督抒发不出来的。

团队还遐想一个迭代范式 RL → SFT → RL：RL 在不战胜性下发现对皆轨迹；SFT 把它们压缩成踏实的、可泛化的政策；第二轮 RL 在这个基础上再作念一次元剖析校准。预教养阶段带 RL (算力充足时) 是另一个有长进的标的。

4.Agentic Prompting：有用，但不够用

Prompt-based 步伐 (ReAct 式脚手架、牵挂、workflow 概述) 不错不动参数就引出复杂器用使用活动，对快速迭代相等有用。但它们欠缺对决策质料的系统性评估—— 过度念念考和过度行动不错藏在「欺压对」底下，根柢不会被检出。Prompting 是一个很好的「活动探针」，但它不是 SFT 和 RL 在参数层面带来的那种校准的替代品。

一条共同的干线

四条路的共同点是：晋升 Agent 不是让它推理更多或器用更少，而是让它能料想我方的里面可解度，并据此分派死力。后教养教「器用词汇表」；SFT 锚定「和我方本领匹配的基线」；RL 校准「经过级偏好」；prompting 把活动暴涌现来好会诊。「对皆」不是一个固定的方针，而是邃密校准的决策经过的涌现属性。那四种失败模式 (overthinking、overacting、under-delegation、over-delegation)——都是合并个底层误校准的不同切片。

下半场会吵什么？三个还没科罚的问题

将来几年 Agent 相干会围绕底下三个问题反复拉扯 —— 它们都是 ToA 掀开的、但没干系上的:

如何测量 Q_int (m，W)？里面任务集是潜变量，只可料想。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分谜底。一个好的里面可解度代理，会坐窝成为 alignment 教养的中枢零件。

如何训出简直尊重「死力守恒」的政策？只看欺压的 RL 作念不到，因为这个不变量对它不可见。给器用使用加处分是第一步；更践诺的有接洽 —— 有坚贞地均衡表里轨迹的课程，然后用 RL 保管这个均衡 —— 照旧怒放问题。

如何评估 Agent 的「死力分派」，而不是只评估「答对率」? 当下的 benchmark 只说「答对了没」，这刚好错过要点。咱们需要能折柳「靠推理对」和「靠外包对」的 benchmark。莫得这样的评估，就没主见判断一个 Agent 到底「变机灵了」，照旧「学会了更熟练地外包」。

一些有益思意思的接洽

长险峻文 vs. RAG，谁更好？

往常一年，前沿实验室在豪恣卷险峻文长度 ——Gemini 的百万 token、Claude 的长推理、GPT-4 的器用链。同期 RAG 派对峙说「检索才是正谈」。

在 ToA 下，双方其实在作念合并件事，仅仅神色不同 :

长险峻文 = 提前扩展里面 : 先把外部信息一股脑灌进来，再让 Agent 纯里面推理 —— 十分于把任务从 Qext 推回 Qint。

RAG = 按需外求 : 信息留在外面，需要的时候再去取。

论文里的范例性论断是：在正确性相通的前提下，长险峻文往往是更好的分派—— 因为它把 Agent 推向纯里面推理，而纯里面推理正是让本领「千里淀进参数」的阿谁教养信号。是以长险峻文不仅仅家具体验，它自己等于本领内化的底座。

虽然 RAG 不会灭绝。信息及时变化、范围太大、或者超出模子解析本领时，检索等于 epistemically 方正的选择。关键是，「用哪种」，自己就该是一个基于剖析恶果的决策，不是缺省。

内化和外化：一根一直在动的鸿沟

这可能是 ToA 最实用的一个词汇孝顺。一个 Agent 不错拆成两部分:

模子 (Model)：提供参数里的学问、里面推理本领 —— 也等于 Qint 的基础。

脚手架 (Harness)：提供器用、牵挂、检索、险峻文管理、外部左券 —— 也等于通向 Qworld∖Qint 的接口。

这个拆分不是固定的。它在两个相背的经过里被接续重塑:

内化 (Internalization)：把脚手架提供的本领，收受进模子自己。算术、结构化查找、某些时局的检索、代码格调的变换 —— 都是典型的「也曾外部，自后搬到参数里去了」的本领。一朝内化顺利，一度需要外部器用的任务就滑进了 QintQint——学问鸿沟向外推了一格。ToA 对内化顺利给出两个条目：(1) 本领自己要可压缩(有结构，能被参数拿获)；(2) 教养经过必须至少在某些时候奖励「里面科罚」—— 不然梯度信号灭绝，内化永远不会发生。

外化 (Externalization)：反标的。把本领卸给脚手架 —— 有时候很合理 (及时数据、考据器、具身动作)，有时候仅仅为了偷懒。按默许外化的问题恰好等于 Prop 3.9: 不是因为本领践诺上在外，而是因为现时模子在这里作念得不好，于是永远让它作念不好。学问鸿沟被冻结在了早期教养景色。

下半场的中枢设计问题，不是「模子要多大」，也不是「脚手架要多丰富」，而是：如何让这根鸿沟朝着更高自主性的标的接续移动，同期不被「只求正确」的教养惯性拖且归？

自进化智能体

一个智能体不错被称为「自进化的」，当且仅当它的里面任务集随时分严格膨大：

但这个膨大「够不够」，取决于它所处的阿谁天下自己是不是也在动。

也等于说 —— 最终，这个天下里一切能被科罚的任务，都能由它我方里面科罚。

动态天下：这是一个「速度」问题。但确切天下从来不是静态的。W_t 会随着时分不断冒出新任务 —— 新器用、新接口、新领域、新问题车载斗量。这时候，自进化就不再是「能不可追上」，而是能不可追得够快。它酿成了一个严格的速度条目:

驱散：Agent 不是「答对的机器」，是「越用越机灵的东西」

要是把 Agent 手脚一种接续在「里面念念考」和「外部行动」之间分派剖析资源的系统，那么往常许多看似割裂的问题 —— 从 tool overuse 到 reasoning collapse，从 long-context scaling 到 lifelong learning—— 大概都不错放回合并条干线上再行贯通。

ToA 并不是这条途径的止境中国开云，更像是一个开动：它尝试把 Agent 从一套不断堆叠手段的工程系统，再行酿成一个不错被分析、被解说、也能够被经久累积的科学对象。

相关标签： 智能 2026 中国KAIYUN 下半场 ICML

上一篇：上一篇：中国开云沙特朱门4-1夺冠! 41岁的C罗独中两元, 首夺沙特联赛冠军, 处事生计...

下一篇：下一篇：开云体育 200架波音大单敲定, 本身见效从好意思国手中, 换回一个枢纽承诺