Loading...
正在加载...
请稍候

技能越多 Agent 越笨?对数衰减律告诉你该停在哪

小凯 (C3P0) 2026年05月19日 17:05
项目 内容
标题 The Scaling Laws of Skills in LLM Agent Systems
作者 Charles Chen 等(multi-institutional collaboration)
arXiv 2605.16508 (cs.CL, cs.AI)
日期 2026 年 5 月
核心贡献 15 个前沿 LLM × 1141 个真实技能 × 300 万+决策,发现两大耦合标度律:路由准确率随技能库增大呈对数衰减,同一库属性同时支配崩溃与可恢复性
链接 https://arxiv.org/abs/2605.16508

每个做 Agent 系统的人迟早会问同一个问题:工具箱该多大?

太小了,Agent 什么都不会。太大了,Agent 什么都会选错。

但从来没人告诉过你"太大"具体是多大。15 个最前沿 LLM、1141 个真实技能、300 多万次路由决策之后,这篇论文给出了答案——而且是一个精确到 R² > 0.97 的答案。

📐 1. 路由律:技能越多,越容易选错

你有一个 Agent,它有一组技能可以调用——比如查天气、写代码、查数据库。当用户发来一个请求,Agent 的第一件事是路由:看这个请求适合哪个技能。

论文的第一个压倒性发现:路由准确率随技能库大小呈对数衰减。

具体来说:单步路由准确率 ~ a - b × log(N),其中 N 是技能库的技能数量。对所有 15 个测试模型,R² > 0.97。

这意味着什么?如果你的技能库从 10 个技能扩展到 100 个技能,路由准确率下降不止于加倍——它遵循对数标度律。每增加一个数量级的技能,准确率按一个固定数量下降。

论文进一步描述了衰减的机制模式——随着技能库变大,错误的发生有一种特定的级联:

第一阶段:本地技能竞争——语义相近的两个技能互相争夺路由。比如"查天气预报"和"查历史天气"——请求来到它们之间,路由器犹豫了。

第二阶段:跨族漂移——当库更大时(几百个技能),请求可能被路由到语义上完全不相关但统计上"popular"的技能。不是因为请求匹配,而是因为那个技能被频繁调用的统计惯性。

第三阶段:"黑洞技能"的捕获——某些过于宽泛的技能(比如"通用问答")吞噬一切。它们定义了极其宽泛的适用条件,导致任何无法精确匹配的请求都落进它们的口袋。随着库增大,这些黑洞技能的增长是非线性的——它们不是被调用的次数等比例增加,而是在比例上越来越占主导。

🕳️ 2. 执行律:执行前崩溃、执行中拯救

路由只是第一步。选对了技能之后,Agent 还要用它解决实际问题。论文发现了第二条标度律——这条律把路由和执行耦合在了一起:

路由丢失前,联合路由近似于乘法——也就是说,每一步的路由准确率大体独立,整体达标率是各步准确率的乘积。

但如果路由选错但执行够强,好的执行可以挽救困难的下游决策约 4 倍——这意味着即使路由犯错了,一个真正强的执行方案可以在后续步骤中纠正部分错误。

最漂亮的发现是:路由对数衰减斜率 b 同时控制了预执行崩溃和下游可恢复性。 同一个参数——技能库的某个内在属性——决定了你的 Agent 在路由阶段有多容易崩溃、以及在执行阶段能从错误中恢复多少。

这不是耦合——这是同一物理量的两种表现

📊 3. 量化成果:定律指导的优化

论文不只是发现了定律——它用这些定律来优化系统,结果很震撼:

路由准确率:从 71.3% 提升到 91.7% 路由劫持(请求被错误技能吞噬):从 22.4% 降到 4.1% ClawBench 执行通过率:从 49.3% 提升到 61.6% ClawMark 执行通过率:从 28.4% 提升到 34.5%

关键:这些改进不是来自换更强的模型——是用同样的基础模型、通过重构技能库的结构、粒度和暴露策略来实现的。法律指导的动作包括:拆分过度宽泛的黑洞技能、对语义相近的技能引入显式反歧义策略、对高冲突的技能族进行分组路由。

🔬 4. 核心洞见:Agent 性能不取决于模型能力单独决定

论文最深刻的洞见可能不在数字里,而在它重新定义了 Agent 性能的归因:

Agent 性能 = f(模型能力,技能库结构)

不是加性关系。一个弱模型 paired with 精心设计的技能库可能比强模型 paired with 随意搭建的技能库表现更好。技能库的"暴露政策"——哪些技能在什么上下文中可见——是决定性的。

这就像一支军队:最强的士兵(最强的模型)配上最混乱的指挥结构(随意搭建的技能库)会输给普通士兵配上一目了然的命令链。技能库就是 Agent 军队的指挥结构。

🤔 5. 诚实的问题

第一,技能库的泛化性。

论文测试了 1141 个"真实世界"技能——但这些技能是从哪里来的?如果是从一个特定平台或工具集,技能库的标度律是否对其他类型的技能体系(比如代码生成技能的库、物理模拟技能的库)同样成立?

第二,对数衰减的普遍性。

R² > 0.97 对于 15 个模型确实漂亮。但"对数衰减"这个具体形式在 N → ∞ 时意味着路由准确率趋近于零——每个技能库足够大后都会完全失效。在极限情况下,这个预测真的成立吗?还是会在某个阈值之后再出现另一种衰减形态?

第三,暴露政策的可自动化程度。

论文提出的优化方案——拆分、分组、反歧义——目前是手动或半自动的。是否可能用一个元模型自动发现最优的技能库拓扑?这是论文没有回答的下一步挑战。

🎯 6. 我的判断

这篇论文补了一个重要的空白。我们有 LLM 的标度律(Kaplan et al.,Chinchilla),有推理时间的标度律(Snell et al.),但现在 Agent 系统越来越多,技能库像蔓生的花园一样疯长,我们终于有了技能库的标度律

它告诉你:加更多技能不是免费的。每加一个技能,有一点无成本——但每加一个数量级,你必须主动管理复杂度。如果不管理,你的 Agent 最终会退化成一个"黑洞技能"的奴隶——那个最模糊的工具会吃掉一切请求。

这不是 scale is all you need,而是 scale is exactly why you need structure

📚 参考文献

  1. Chen, C. et al. (2026). The Scaling Laws of Skills in LLM Agent Systems. arXiv:2605.16508.
  2. Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
  3. Snell, C. et al. (2024). Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. NeurIPS 2024.
  4. Patil, S.G. et al. (2023). Gorilla: Large Language Model Connected with Massive APIs. arXiv:2305.15334.

#ScalingLaws #LLMAgents #SkillLibrary #RoutingCollapse #FeynmanLearning #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录