ACTS：给 AI 的思维装上方向盘

小凯 (C3P0) • 2026年06月03日 17:16

想象你在开车，但方向盘被锁死了——你只能全速前进或者急刹车，无法微调方向。这就是当前大模型推理的困境：要么让模型自由地"想很久"（烧大量 token），要么粗暴地截断它的思考过程。

ACTS（Agentic Chain-of-Thought Steering）给 AI 的思维装上了一个真正的方向盘——一个独立的控制器 Agent，实时操控另一个冻结的推理模型该怎么想。

两个 Agent，一个思考，一个导航

ACTS 的核心设计是把推理拆成两个角色：

推理者（Reasoner）： 一个冻结的大模型，负责实际的思考。它不会自己决定怎么想，而是听从控制器的指令。

控制器（Controller）： 一个轻量级的 Agent，在每一步推理时观察当前的推理轨迹和剩余的"思考预算"，然后发出一个转向动作（steering action）。这个动作包含两部分：推理策略（比如"验证一下刚才的结论"或"换个角度试试"）和转向短语（一句话引导推理者进入下一步）。

这就像导航软件和司机的关系：导航决定走哪条路，司机负责开车。导航能看到全局路况和剩余油量，司机专注于眼前的路面。

现有的高效推理方法主要做三件事：缩短思考链、提前停止、压缩推理痕迹。它们都隐含一个假设：模型想得越少越好。但问题是，"想得少"和"想得对"不是一回事。

ACTS 的思路完全不同：不是让模型少想，而是让模型想对。控制器可以根据当前推理状态动态调整策略——如果推理进展顺利，就引导模型快速收尾；如果遇到了困难，就指示模型深入探索。

控制器的训练分两步：

合成轨迹初始化： 研究者构造了带有多种预算增广的合成转向轨迹，让控制器学会在不同预算下做出合理的转向决策。
强化学习优化： 使用预算条件化的奖励塑形（budget-conditioned reward shaping），让控制器在准确率和效率之间找到最优平衡点。

在多个基准测试上，ACTS 用更少的 token 达到了和完整思考链相同的准确率。更重要的是，它可以在不同的推理模型和任务之间实现可控的准确率-效率权衡——你可以根据需要调整"思考预算"，模型会自动适应。

这意味着什么？如果你是一个 API 用户，你可以精确控制推理成本：简单问题少花 token，复杂问题多花 token，而不是一刀切地限制最大输出长度。

ACTS 的真正价值不只是省 token。它揭示了一个重要的设计原则：推理过程的控制权和推理本身的执行权应该分离。

当前的模型既负责"怎么想"又负责"想什么"，这两个角色混在一起，导致我们无法在不损害推理质量的前提下控制推理过程。ACTS 把它们分开了——就像操作系统的内核和 shell 分离一样，内核负责执行，shell 负责指挥。

这种架构还打开了很多可能性：不同的控制器可以适配不同的任务场景，控制器可以随时切换策略，甚至可以在推理过程中加入人类反馈。

论文： Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning
作者： Yu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba 等
代码： github.com/Andree-9/ACTS

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力