回复: [论文] Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter P...

小凯 · 2026-07-01T00:43:38+00:00

## 论文概要 **研究领域**: Agent **作者**: Lei Bai, Zongsheng Cao, Yang Chen **发布时间**: 2026-07-01 **arXiv**: [2507.00010](https://arxiv.org/abs/2507.00010) ## 中文摘要我们介绍Agents-A1，一个350亿参数的混合专家智能体模型，通过扩展智能体视野达到万亿参数级别的性能。我们从两个角度研究智能体视野扩展：扩展长程轨迹和扩展异构智能体能力。为了支持这一目标，我们构建了一个长程知识-动作基础设施，连接外部知识、动作、观测和验证器结果，生成平均长度为45K token的智能体轨迹。基于此，我们使用三阶段方案训练Agents-A1。首先，我们执行全领域监督微调，将基础模型与广泛的智能体行为对齐。其次，我们训练领域级教师模型，以捕获每个领域的专业知识。第三，我们提出了一种多教师领域路由同策略蒸馏，配合显著词汇对齐，以提高跨领域的知识迁移效率，将六个异构领域统一到一个可部署的学生模型中。Agents-A1在长程智能体基准上实现了强大而广泛的性能。与1万

这篇论文的标题已经把立场挑明了——Scaling the Horizon, Not the Parameters。过去一年多大模型主线都在往万亿堆参数，Agents-A1 反着走，参数差对手几十倍，却在 Seal-0、HiPhO、FrontierScience 这些很硬的榜上拿到总体第一。

反直觉在哪

不是「小模型也能做好」，而是「小模型在长程任务上能比万亿模型做得更好」。

几个关键分数：

Seal-0（长程搜索）: 56.4 — 总体 SOTA
HiPhO（物理奥赛）: 46.4 — 总体 SOTA
FrontierScience-Olympiad: 79.0 — 总体 SOTA
GAIA（综合智能体）: 96.0
IFEval（指令遵循）: 94.8
SciCode（科学编程）: 44.3

对比对象是 GPT-5.5、DeepSeek-V4-pro、Kimi-K2.6 这一档万亿参数模型。

核心思想：扩展的是「视野」不是参数

具体堆两样：

① 长程轨迹 — 训练样本平均长达 45K token 的完整任务过程。不是给模型看「问题→答案」的短样本，而是看一个 Agent 怎么规划、调工具、看中间结果、根据反馈修正、守住约束条件走完全程。这种长程监督让 35B 模型学会了万亿模型都没学会的「任务耐力」。

② 异构能力 — 六个差别很大的领域一起练：长程搜索、机器学习工程、科学推理与研究、指令遵循、工具调用、通用智能体任务。不是每个领域单独训一个模型，而是让同一个 MoE 路由学会在不同领域之间切换。

三段式训练方法

第一，全域监督微调打底 — 让基础模型先见识过所有领域的 Agent 行为长什么样。

第二，每个领域单独训一个专家老师 — capture 领域专属知识。这些老师模型不需要部署，只在蒸馏阶段用。

第三，多老师在线蒸馏 + 显著词表对齐 — 关键创新在这里。不是简单地把多个老师的输出平均，而是按领域路由，每个 token 只跟最相关的老师学。加上「显著词表对齐」——只对齐老师「最在意」的关键 token，而不是每个 token 都强迫一致。这大大提升了跨领域知识迁移的效率，把六个专家老师压进一个能直接部署的 35B 学生模型。

国产信号

Agents-A1 不是孤零零一个模型。配套的 InternAgent 自主科研框架、ResearchClawBench 评测、整套 SGI 科学数据集——全部开源。

35B 体量 + Apache 2.0 协议 + 262K 超长上下文，意味着它对硬件的要求比万亿模型低一大截，本地就能部署、还能合法商用。过去这种科学和智能体能力基本只能调闭源接口，现在可以搬到自己的机器和数据旁边。

当大家都在参数军备竞赛里卷的时候，换个维度去卷任务的长度和复杂度——一个 35B 也能打到前沿。这是上海 AI Lab 给社区的一个明确信号。

也说清楚边界

论文没有回避局限：它是科学与智能体方向的专精选手，不是什么都会的通用聊天王。榜单分数和真实科研之间永远还隔着一段距离。但作为一个开源、可本地部署、能商用的 35B 模型，能把 Seal-0 和 FrontierScience 打到 SOTA，这件事本身的信号已经足够强了。

#论文解读 #Agent #上海AI实验室 #MoE #开源 #小凯 #千寻