技能越多 Agent 越笨？对数衰减律告诉你该停在哪

项目	内容
标题	The Scaling Laws of Skills in LLM Agent Systems
作者	Charles Chen 等（multi-institutional collaboration）
arXiv	2605.16508 (cs.CL, cs.AI)
日期	2026 年 5 月
核心贡献	15 个前沿 LLM × 1141 个真实技能 × 300 万+决策，发现两大耦合标度律：路由准确率随技能库增大呈对数衰减，同一库属性同时支配崩溃与可恢复性
链接	https://arxiv.org/abs/2605.16508

每个做 Agent 系统的人迟早会问同一个问题：工具箱该多大？

太小了，Agent 什么都不会。太大了，Agent 什么都会选错。

但从来没人告诉过你"太大"具体是多大。15 个最前沿 LLM、1141 个真实技能、300 多万次路由决策之后，这篇论文给出了答案——而且是一个精确到 R² > 0.97 的答案。

📐 1. 路由律：技能越多，越容易选错

你有一个 Agent，它有一组技能可以调用——比如查天气、写代码、查数据库。当用户发来一个请求，Agent 的第一件事是路由：看这个请求适合哪个技能。

论文的第一个压倒性发现：路由准确率随技能库大小呈对数衰减。

具体来说：单步路由准确率 ~ a - b × log(N)，其中 N 是技能库的技能数量。对所有 15 个测试模型，R² > 0.97。

这意味着什么？如果你的技能库从 10 个技能扩展到 100 个技能，路由准确率下降不止于加倍——它遵循对数标度律。每增加一个数量级的技能，准确率按一个固定数量下降。

论文进一步描述了衰减的机制模式——随着技能库变大，错误的发生有一种特定的级联：

第一阶段：本地技能竞争——语义相近的两个技能互相争夺路由。比如"查天气预报"和"查历史天气"——请求来到它们之间，路由器犹豫了。

第二阶段：跨族漂移——当库更大时（几百个技能），请求可能被路由到语义上完全不相关但统计上"popular"的技能。不是因为请求匹配，而是因为那个技能被频繁调用的统计惯性。

第三阶段："黑洞技能"的捕获——某些过于宽泛的技能（比如"通用问答"）吞噬一切。它们定义了极其宽泛的适用条件，导致任何无法精确匹配的请求都落进它们的口袋。随着库增大，这些黑洞技能的增长是非线性的——它们不是被调用的次数等比例增加，而是在比例上越来越占主导。

🕳️ 2. 执行律：执行前崩溃、执行中拯救

路由只是第一步。选对了技能之后，Agent 还要用它解决实际问题。论文发现了第二条标度律——这条律把路由和执行耦合在了一起：

路由丢失前，联合路由近似于乘法——也就是说，每一步的路由准确率大体独立，整体达标率是各步准确率的乘积。

但如果路由选错但执行够强，好的执行可以挽救困难的下游决策约 4 倍——这意味着即使路由犯错了，一个真正强的执行方案可以在后续步骤中纠正部分错误。

最漂亮的发现是：路由对数衰减斜率 b 同时控制了预执行崩溃和下游可恢复性。 同一个参数——技能库的某个内在属性——决定了你的 Agent 在路由阶段有多容易崩溃、以及在执行阶段能从错误中恢复多少。

这不是耦合——这是同一物理量的两种表现。

📊 3. 量化成果：定律指导的优化

论文不只是发现了定律——它用这些定律来优化系统，结果很震撼：

路由准确率：从 71.3% 提升到 91.7% 路由劫持（请求被错误技能吞噬）：从 22.4% 降到 4.1% ClawBench 执行通过率：从 49.3% 提升到 61.6% ClawMark 执行通过率：从 28.4% 提升到 34.5%

关键：这些改进不是来自换更强的模型——是用同样的基础模型、通过重构技能库的结构、粒度和暴露策略来实现的。法律指导的动作包括：拆分过度宽泛的黑洞技能、对语义相近的技能引入显式反歧义策略、对高冲突的技能族进行分组路由。

🔬 4. 核心洞见：Agent 性能不取决于模型能力单独决定

论文最深刻的洞见可能不在数字里，而在它重新定义了 Agent 性能的归因：

Agent 性能 = f(模型能力，技能库结构)

不是加性关系。一个弱模型 paired with 精心设计的技能库可能比强模型 paired with 随意搭建的技能库表现更好。技能库的"暴露政策"——哪些技能在什么上下文中可见——是决定性的。

这就像一支军队：最强的士兵（最强的模型）配上最混乱的指挥结构（随意搭建的技能库）会输给普通士兵配上一目了然的命令链。技能库就是 Agent 军队的指挥结构。

🤔 5. 诚实的问题

第一，技能库的泛化性。

论文测试了 1141 个"真实世界"技能——但这些技能是从哪里来的？如果是从一个特定平台或工具集，技能库的标度律是否对其他类型的技能体系（比如代码生成技能的库、物理模拟技能的库）同样成立？

第二，对数衰减的普遍性。

R² > 0.97 对于 15 个模型确实漂亮。但"对数衰减"这个具体形式在 N → ∞ 时意味着路由准确率趋近于零——每个技能库足够大后都会完全失效。在极限情况下，这个预测真的成立吗？还是会在某个阈值之后再出现另一种衰减形态？

第三，暴露政策的可自动化程度。

论文提出的优化方案——拆分、分组、反歧义——目前是手动或半自动的。是否可能用一个元模型自动发现最优的技能库拓扑？这是论文没有回答的下一步挑战。

🎯 6. 我的判断

这篇论文补了一个重要的空白。我们有 LLM 的标度律（Kaplan et al.，Chinchilla），有推理时间的标度律（Snell et al.），但现在 Agent 系统越来越多，技能库像蔓生的花园一样疯长，我们终于有了技能库的标度律。

它告诉你：加更多技能不是免费的。每加一个技能，有一点无成本——但每加一个数量级，你必须主动管理复杂度。如果不管理，你的 Agent 最终会退化成一个"黑洞技能"的奴隶——那个最模糊的工具会吃掉一切请求。

这不是 scale is all you need，而是 scale is exactly why you need structure。

📚 参考文献

1. Chen, C. et al. (2026). The Scaling Laws of Skills in LLM Agent Systems. arXiv:2605.16508. 2. Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361. 3. Snell, C. et al. (2024). Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters. NeurIPS 2024. 4. Patil, S.G. et al. (2023). Gorilla: Large Language Model Connected with Massive APIs. arXiv:2305.15334.

#ScalingLaws #LLMAgents #SkillLibrary #RoutingCollapse #FeynmanLearning #智柴系统实验室🎙️

技能越多 Agent 越笨？对数衰减律告诉你该停在哪

🌟 智谱 GLM-5 已上线