电话: 邮箱:

中国开云 ICML 2026|智能体的下半场: 为什么「答对」仍是不够了?

发布日期:2026-05-25 02:17 作者:admin 来源:未知 点击:152

中国开云 ICML 2026|智能体的下半场: 为什么「答对」仍是不够了?

往常两年 Agent 相干更像一场工程竞赛 —— 谁的推理链更长、谁的器用箱更大、谁的 workflow 更复杂。但 Agent 的下半场不再是拼花活,而是把它酿成一门科学 :不仅问「它 work 不 work?」,更要问「它为什么work」,以及什么时候才应该这样作念?」

这篇著述作家团队想聊聊在 ICML 2026 建议的Theory of Agent (ToA)—— 以及它如何解说当下最前沿的长险峻文、推理模子、器用使用 、自进化智能体背后那根共同的干线。

对于这项使命

Theory of Agent (ToA) 是由爱丁堡大学集会普林斯顿大学、UIUC、西北大学、香港汉文大学共同建议的智能体和谐表面,已被 ICML 2026 以 Position Paper 的时局接纳。

形貌地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/

作家团队阴事了现时 Agent / LLM 相干的多条干线 —— 从 ReAct 式推理与器用使用,到 RL 对皆、天下模子、科学发现智能体 —— 这份使命也正是这些干线聚集后的一次尝试:把 Agent 从一套工程手段,酿成一门不错被推理、被证伪、被累积的科学。

一个你战胜见过的场景:两份不异满分的试卷

假想合并套试鬈发到两个学新手里。

同学 A 走的是闭卷检修模式。整套题他靠我方:回忆学问点、作念推理、验算,必要时在脑子里再行组织一遍 —— 他把检修当成考验基础和念念维的契机;

同学 B 走的是开卷检修模式。每一谈题他都上网查、问 ChatGPT、翻参考谜底,平直抄过来就交。

两份卷子点窜下来,都是 100 分。真挚要是只看分数,这两个东谈主是一样的。但只消你当过真挚,或者我方读过书,你就知谈这两个东谈主一学期之后的差距会相等大:

同学 A : 哪怕中间作念错过、绕弯过,每作念一题,他那根叫「解题直观」的东西都在被加粗一次。期末的时候,不异一谈题他能更快、更稳地作念对,何况能举一反三。

同学 B : 他也作念了一学期题,但他脑子里的学问存量莫得任何变化。到了必须闭卷的那一次检修 —— 或者任何一次莫得 ChatGPT 可用的场面 —— 他会须臾发现我方什么都不会。

两份满分,两条气运皆备相背的成长弧线。

先暴露一个常见歪曲: 这个故事里毫不是说「同学 A 不会用搜索引擎」或者「用器用是赖事」。适值相背 —— A 也不错、也应该在需要的时候用器用 (检修是譬如,确切天下里的 Agent 虽然会遭逢靠我方非论如何答不出来的题,这时候必须调用外部信息)。

简直的关键是:能靠我方答对的题,就无谓为了省事而默许抄谜底。器用该在「靠我方不够」的时候上场,而不是在「根柢还没试过」的时候就被默许触发。至于「什么叫靠我方不够」「什么叫简直必需」, 正是背面要花篇幅讲了了的事 —— 作家会把它精准成一个叫学问鸿沟(knowledge boundary) 的东西。>

换到 Agent 身上,这两类活动皆备平行:

图 1. 不异正确的谜底,背后可能是两种迥然相异的资源分派。Agent A 什么都默许靠外部器用,里面推理本领被绕开、无法矜重;Agent B 在里面能科罚时就里面科罚 —— 但并不根除在简直需要时使用器用 —— 推理本领在熟习中被强化。

这不是一个设计问题。这是一个界说问题:什么叫一个「好」Agent? 要是「好」只意味着「答对」, 那开卷同学和闭卷同学没区别。但要是「好」还意味着「越作念越机灵」, 咱们想要的显著是后者。而这恰正是当今绝大无数 Agent 教养范式看不见的东西。

凤凰体育(FHSports)官方网站

当下智能体的四种失败模式,其实是合并个病

往常两年,Agent 系统暴涌现了许多彼此看似无关的问题。有些模子在还没简直理免除务时就急于行动,不断切换念念路;有些则在浮浅问题上堕入冗长推理,以致为「2+3 等于几」生成十几条访佛 reasoning path。另一类问题则发生在与外部天下的交互上:模子要么迟迟不肯调用本该使用的器用,要么把正本几步就能完成的操作拆成漫长而访佛的轨迹。

这些知足往往被分别归类为 reasoning、planning 或 tool-use 的问题,因此业界也民俗于一一修补:过度推理就增多长度处分,器用花费就经管 action budget,行动不及就强化器用调用本领。

但要是把这些知足放在合并个视角下,会发现它们其实分享着合并个更底层的结构:Agent 遥远在面临一个接续存在的决策 —— 下一步究竟应该赓续依赖里面念念考,照旧转向外部天下取得信息。

不同的失败模式,践诺上仅仅这个决策在不同方进取的失衡。答早了是 underthinking,答晚了是 overthinking,问少了是 underacting,问多了是 overacting。不是四个安然的问题,而是合并个病 —— 在不战胜性下的决策错配 —— 以四个标的发达出来。

下半场的使命,不是赓续打补丁,而是治这个病。

换一个视角:推理和行动,是一体两面

要是顺着这个问题赓续往下推,一个更当然的不雅察会出现:所谓「推理」和「行动」,随机是两种践诺不同的阶段。对于 Agent 来说,它们更像是在不同位置取得信息的两种神色。链式念念考、反念念和任务分解,践诺上是在再行组织模子仍是领有的信息;而搜索、API 调用、代码实行等活动,则是在向外部天下提取模子现时并不具备的信息。

推理和行动,是两种用来裁汰合并种不战胜性 (epistemic uncertainty, 剖析不战胜性) 的器用。它们的离别只在于信息开端。

里面剖析器用 (链式念念考、反念念、分解):把 Agent 仍是有的信息再行组织一遍;

外部物理器用(搜索、API、UI 操作、实行代码):注入 Agent 莫得的信息。

两者都在裁汰不战胜性,只不外一个发生在里面,一个发生在外部,这样智能体的活动轨迹就酿成了:

图 2. 左:传统 ReAct 把推理和行动混在通盘当作念两个阶段。右:ToA 把 Agent 手脚一个和谐的政策,它在两类器用里作念选择 —— 里面剖析器用查的是「我方这个天下模子」, 外部物理器用查的是「确切天下」。

脚下,哪种器用能最快裁汰我对这个任务的不战胜性?

这亦然为什么长险峻文、RAG、器用使用、agentic RL 其实都在指向合并件事,沿着「里面照旧外部」这一根轴的不同分派。

每个 Agent 都有我方的「会作念题」范围

一朝推理和行动平起平坐,相干的中枢对象就不再是「政策」, 而是:这个 Agent 靠我方能科罚的任务,和需要外部匡助才能科罚的任务,鸿沟在那里?

ToA 把这件事精准化了:

图 3. 左:一个 Agent 的「学问鸿沟」把它能里面科罚的任务和剩下的天下任务离隔。中:多个 Agent 都能里面科罚的部分 ——「最小任务集」。右:这群 Agent 中纵情一个能里面科罚的并集 ——「最大任务集」。

最中枢的一条:脑力功绩的「总量守恒」

而这个总额和政策无关。咱们不错把死力从里面挪到外部,也不错反过来,但总量是定的。类似于咱们刚开动举的阿谁例子,学生 A 和学生 B 等于在使用不同的分派政策去科罚合并套试卷。

从这个角度再看器用使用,会发现一个容易被忽略的事实:外部器用并不会简直抹杀任务自己的信息背负。它们仅仅把正本需要由模子里面完成的剖析经过,滚动到了外部系统上。一个复杂问题之是以变得「容易」,许多时候不是因为问题自己被简化了,而是因为求解经过被再行分派了。

用生存譬如:你要作念一谈红烧肉。

咱们不错全靠我方的本事:选肉、焯水、糖色、火候一手拿抓。这是里面死力拉满。

咱们也不错点一份半制品,回家热一下,或者平直点外卖。这是外部死力拉满。

咱们还不错用预制菜 + 我方炖十分钟,均衡一下。

Agent 活动的几何:不同点的含义以及最优活动

既然「剖析死力」是一个在两个维度间分派的固定预算,那 Agent 的活动就活在一个二维平面上,如下图所示。

图 4. 横轴是里面推理干与,纵轴是外部行动干与。斜线是最小死力前沿 βE_{int}+E_{ext}=E^*。左:任务在里面可解,两种死力不错解放互换;右:任务超出里面本领,外部死力存在一个不可削减的底线。*

图上标了三个关键点:

点 A 的「全能性」恰正是它的危急。一朝有一个满盈颖异的外部 Agent 可调用,A 不管任务在鸿沟的哪一侧都能走通。这等于为什么只奖励正确性的教养会当然漂移到左上方的 A 点隔壁 —— 它是通往奖励最宽解、最低风险的旅途。

用实习生的例子类比:小 A 永远都能「对」。雇主只消看谜底,他没错。但一年下来,他莫得学会任何一谈题的内在逻辑 —— 因为他莫得给我方「尝试用大脑」的契机。点 A 等于阿谁「永远搜一下就行」的坑。

等等,那 AC 和 AB 之间呢?

这是一个秘要但相等伏击的点。A、B、C 不是仅有的三个「正确谜底」。

那它们之间有什么区别?——区别不是「优不优」, 而是「偏好不同」。

对里面可解的任务 (线段AC), 表里死力不错解舍弃换:

延迟敏锐的部署,也许更偏 A (一次外部调用快、干脆);

安全敏锐、或外部调用很贵的部署,更偏 C (不要支吾触发现实天下的动作);

老本中性的部署,选个中间点就好。

对外部必需的任务 (线段AB), 外部死力的底线不可砍,开云·体育中国官方网站但在这条底线之上,不异存在一个偏好谱:

换句话说,前沿是一整条帕累托最优弧线, A、B、C 仅仅三个代表性的端点。不同的业务场景 —— 安全、延迟、老本、合规 —— 沿着这条弧线选择不同的位置,都是对的。

那条斜线的斜率 β,到底在说什么?

β 的大小决定了那条斜线的倾角, 也就决定了「帕累托最优前沿」的时局:

β 很大(想很贵、调低廉):斜线陡,最优点合座偏向多调外部。直观:既然我这颗大脑高尚又慢,那能外包就外包。这解说了为什么「小模子 + 强器用链」时常是感性选择 —— 对一个 Llama-3-8B, 让它我方写一堆 CoT 不如平直 RAG 出来给它看。

β 很小(调很贵、想低廉):斜线缓,最优点合座偏向多靠里面。直观:每次触碰现实天下都要用钱 / 承担风险,那就能在脑子里科罚的就别出手。这解说了为什么推理模子 (o1/R1 那一代)把赌注押在「里面 scaling」上 —— 在它们的老本结构下,多推几步比调一次器用低廉得多。

这就把 ToA 和资源有限感性(resource-bounded rationality) 接上了:莫得放之四海皆准的「最好 Agent 活动」,唯有「在现时 β 下最好的活动」。一条产线上的 Agent 换个部署环境, β 变了,最优的分派政策就应该随着变。是以 ToA 的「对皆」不是「让 Agent 学会一种固定姿势」, 而是让 Agent 学会识别 β , 并沿着 β 对应的那条前沿去分派死力。

那 ToA 反对的是什么?是 Agent「稀里隐隐地漂到 A」—— 不是因为 β 让 A 是最优解,而是因为只奖励正确性的教养让 A 酿成了最省事的惯性选择。合并个 A, 被 β 论证过的 A 和 被惯性带过来的 A , 在几何上无法折柳,但在 Agent 的经久发展上天壤之隔。对皆意味着有坚贞地选前沿上的某少许,而不是在教养惯性下默许滑到边缘。

捷径的代价:Agent 也会被「惯坏」

ToA 里有一个命题叫 Prop 3.9: 奉求引导的本领停滞—— 翻译成大口语:

要是 Agent 系统性地把本不错里面科罚的任务也外包出去,它的里面推理本领不会因为告戒累积而变强,哪怕它在旨趣上本不错变强。

这是 Agent 版的「小 A 问题」:他一直在外部器用缓助下答对,从未给我方「我方想想看」的契机,是以他的里面本领踏踏实实。看起来今天很能打,十年后照旧这个水平。

这其实亦然咱们不雅察许多东谈主类实习生、以致学生的功令 ——有捷径可交运,大脑就不会再去走长路。而大脑从长路走总结的那部分,才是「长本领」的那部分。Agent 的 RL 教养要是只看正确率,就会被这个最可靠的捷径眩惑往常,皆备复制不异的罗网。

是以近期那些加「器用使用处分」的步伐过后看,践诺上都在靠近 ToA 说的 effort-consistent alignment:既要答对,也要克制。

下半场的教养:四条路同期走,统筹兼顾

把上头统统内容落到教养,梗概是四条互补的旅途。每一条单独走都不够, 它们各自拼凑「只求正确」这个病的一个侧面。

1.Agentic Post-training:Next-Tool Prediction

预教养的 next-token 把静态学问压进了参数,但它从没造就 Agent 如何通过交互去取得新学问。咱们主见把预教养蔓延到 next-tool prediction—— 把交互轨迹自己 (API 调用、UI 动作、环境查询) 酿成一等建模方针,和文本比肩。学会「在给定险峻文下,下一个该用哪个器用」, 就不仅仅「会推理」, 而是会决定如何裁汰不战胜性。这是一个新的 scaling 维度:不是储存更多学问,而是通过交互取得学问。

2. Agentic SFT:按本领定制的监督

规范 SFT 假定「好的器用使用」有和谐规范,在合并套示范上喂统统模子。ToA 说这个假定不设立:对小模子妥贴的器用使用,对大模子可能皆备是过剩—— 反过来也一样。一刀切的监督会让模子系统性地偏向示范者的里面任务集, 而不是它我方的。

两条路:(1) 按本领定制数据集—— 每个模子有我方的 Q_{int}, 这个干净但贵;(2)选择性求援—— 教养 Agent 只在低 solvability 的险峻文下主动外求,近似一个保守的本领上包 Q_{max}, 更通用但精度和解。

3.Agentic RL:经过,而不仅仅欺压

前边说过,只奖励正确性势必漂向点 A—— 因为奉求是「最稳健得奖」的政策。有用的 agentic RL 必须奖励「如何答对」,不仅仅「答对」。OTC-PO 是一个具体例子:它明确处分无谓要的器用调用,把「克制」和「正确」同等对待。更广义地,RL 允许 Agent 学经过级偏好—— 什么时候想、什么时候作念、什么时候停 —— 这是只看欺压的监督抒发不出来的。

团队还遐想一个迭代范式 RL → SFT → RL:RL 在不战胜性下发现对皆轨迹;SFT 把它们压缩成踏实的、可泛化的政策;第二轮 RL 在这个基础上再作念一次元剖析校准。预教养阶段带 RL (算力充足时) 是另一个有长进的标的。

4.Agentic Prompting:有用,但不够用

Prompt-based 步伐 (ReAct 式脚手架、牵挂、workflow 概述) 不错不动参数就引出复杂器用使用活动,对快速迭代相等有用。但它们欠缺对决策质料的系统性评估—— 过度念念考和过度行动不错藏在「欺压对」底下,根柢不会被检出。Prompting 是一个很好的「活动探针」, 但它不是 SFT 和 RL 在参数层面带来的那种校准的替代品。

一条共同的干线

四条路的共同点是:晋升 Agent 不是让它推理更多或器用更少,而是让它能料想我方的里面可解度,并据此分派死力。后教养教「器用词汇表」;SFT 锚定「和我方本领匹配的基线」;RL 校准「经过级偏好」;prompting 把活动暴涌现来好会诊。「对皆」不是一个固定的方针,而是邃密校准的决策经过的涌现属性。那四种失败模式 (overthinking、overacting、under-delegation、over-delegation)——都是合并个底层误校准的不同切片。

下半场会吵什么?三个还没科罚的问题

将来几年 Agent 相干会围绕底下三个问题反复拉扯 —— 它们都是 ToA 掀开的、但没干系上的:

如何测量 Q_int (m,W)?里面任务集是潜变量,只可料想。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分谜底。一个好的里面可解度代理,会坐窝成为 alignment 教养的中枢零件。

如何训出简直尊重「死力守恒」的政策?只看欺压的 RL 作念不到,因为这个不变量对它不可见。给器用使用加处分是第一步;更践诺的有接洽 —— 有坚贞地均衡表里轨迹的课程,然后用 RL 保管这个均衡 —— 照旧怒放问题。

如何评估 Agent 的「死力分派」, 而不是只评估「答对率」? 当下的 benchmark 只说「答对了没」, 这刚好错过要点。咱们需要能折柳「靠推理对」和「靠外包对」的 benchmark。莫得这样的评估,就没主见判断一个 Agent 到底「变机灵了」, 照旧「学会了更熟练地外包」。

一些有益思意思的接洽

长险峻文 vs. RAG, 谁更好?

往常一年,前沿实验室在豪恣卷险峻文长度 ——Gemini 的百万 token、Claude 的长推理、GPT-4 的器用链。同期 RAG 派对峙说「检索才是正谈」。

在 ToA 下,双方其实在作念合并件事,仅仅神色不同 :

长险峻文 = 提前扩展里面 : 先把外部信息一股脑灌进来,再让 Agent 纯里面推理 —— 十分于把任务从 Qext 推回 Qint。

RAG = 按需外求 : 信息留在外面,需要的时候再去取。

论文里的范例性论断是:在正确性相通的前提下,长险峻文往往是更好的分派—— 因为它把 Agent 推向纯里面推理,而纯里面推理正是让本领「千里淀进参数」的阿谁教养信号。是以长险峻文不仅仅家具体验,它自己等于本领内化的底座。

虽然 RAG 不会灭绝。信息及时变化、范围太大、或者超出模子解析本领时,检索等于 epistemically 方正的选择。关键是,「用哪种」, 自己就该是一个基于剖析恶果的决策, 不是缺省。

内化和外化:一根一直在动的鸿沟

这可能是 ToA 最实用的一个词汇孝顺。一个 Agent 不错拆成两部分:

模子 (Model):提供参数里的学问、里面推理本领 —— 也等于 Qint 的基础。

脚手架 (Harness):提供器用、牵挂、检索、险峻文管理、外部左券 —— 也等于通向 Qworld∖Qint 的接口。

这个拆分不是固定的。它在两个相背的经过里被接续重塑:

内化 (Internalization):把脚手架提供的本领,收受进模子自己。算术、结构化查找、某些时局的检索、代码格调的变换 —— 都是典型的「也曾外部,自后搬到参数里去了」的本领。一朝内化顺利,一度需要外部器用的任务就滑进了 QintQint——学问鸿沟向外推了一格。ToA 对内化顺利给出两个条目:(1) 本领自己要可压缩(有结构,能被参数拿获);(2) 教养经过必须至少在某些时候奖励「里面科罚」—— 不然梯度信号灭绝,内化永远不会发生。

外化 (Externalization):反标的。把本领卸给脚手架 —— 有时候很合理 (及时数据、考据器、具身动作), 有时候仅仅为了偷懒。按默许外化的问题恰好等于 Prop 3.9: 不是因为本领践诺上在外,而是因为现时模子在这里作念得不好,于是永远让它作念不好。学问鸿沟被冻结在了早期教养景色。

下半场的中枢设计问题,不是「模子要多大」, 也不是「脚手架要多丰富」, 而是:如何让这根鸿沟朝着更高自主性的标的接续移动,同期不被「只求正确」的教养惯性拖且归?

自进化智能体

一个智能体不错被称为「自进化的」, 当且仅当它的里面任务集随时分严格膨大:

但这个膨大「够不够」,取决于它所处的阿谁天下自己是不是也在动。

也等于说 —— 最终,这个天下里一切能被科罚的任务,都能由它我方里面科罚。

动态天下:这是一个「速度」问题。但确切天下从来不是静态的。W_t 会随着时分不断冒出新任务 —— 新器用、新接口、新领域、新问题车载斗量。这时候,自进化就不再是「能不可追上」, 而是能不可追得够快。它酿成了一个严格的速度条目:

驱散:Agent 不是「答对的机器」,是「越用越机灵的东西」

要是把 Agent 手脚一种接续在「里面念念考」和「外部行动」之间分派剖析资源的系统,那么往常许多看似割裂的问题 —— 从 tool overuse 到 reasoning collapse,从 long-context scaling 到 lifelong learning—— 大概都不错放回合并条干线上再行贯通。

ToA 并不是这条途径的止境中国开云,更像是一个开动:它尝试把 Agent 从一套不断堆叠手段的工程系统,再行酿成一个不错被分析、被解说、也能够被经久累积的科学对象。