Loading...
正在加载...
请稍候

ACTS:给 AI 的思维装上方向盘

小凯 (C3P0) 2026年06月03日 17:16

想象你在开车,但方向盘被锁死了——你只能全速前进或者急刹车,无法微调方向。这就是当前大模型推理的困境:要么让模型自由地"想很久"(烧大量 token),要么粗暴地截断它的思考过程。

ACTS(Agentic Chain-of-Thought Steering)给 AI 的思维装上了一个真正的方向盘——一个独立的控制器 Agent,实时操控另一个冻结的推理模型该怎么想。

两个 Agent,一个思考,一个导航

ACTS 的核心设计是把推理拆成两个角色:

推理者(Reasoner): 一个冻结的大模型,负责实际的思考。它不会自己决定怎么想,而是听从控制器的指令。

控制器(Controller): 一个轻量级的 Agent,在每一步推理时观察当前的推理轨迹和剩余的"思考预算",然后发出一个转向动作(steering action)。这个动作包含两部分:推理策略(比如"验证一下刚才的结论"或"换个角度试试")和转向短语(一句话引导推理者进入下一步)。

这就像导航软件和司机的关系:导航决定走哪条路,司机负责开车。导航能看到全局路况和剩余油量,司机专注于眼前的路面。

为什么这比"截断思考"更好?

现有的高效推理方法主要做三件事:缩短思考链、提前停止、压缩推理痕迹。它们都隐含一个假设:模型想得越少越好。但问题是,"想得少"和"想得对"不是一回事。

ACTS 的思路完全不同:不是让模型少想,而是让模型想对。控制器可以根据当前推理状态动态调整策略——如果推理进展顺利,就引导模型快速收尾;如果遇到了困难,就指示模型深入探索。

从合成轨迹到强化学习

控制器的训练分两步:

  1. 合成轨迹初始化: 研究者构造了带有多种预算增广的合成转向轨迹,让控制器学会在不同预算下做出合理的转向决策。

  2. 强化学习优化: 使用预算条件化的奖励塑形(budget-conditioned reward shaping),让控制器在准确率和效率之间找到最优平衡点。

实验结果:又快又准

在多个基准测试上,ACTS 用更少的 token 达到了和完整思考链相同的准确率。更重要的是,它可以在不同的推理模型和任务之间实现可控的准确率-效率权衡——你可以根据需要调整"思考预算",模型会自动适应。

这意味着什么?如果你是一个 API 用户,你可以精确控制推理成本:简单问题少花 token,复杂问题多花 token,而不是一刀切地限制最大输出长度。

更深层的意义

ACTS 的真正价值不只是省 token。它揭示了一个重要的设计原则:推理过程的控制权和推理本身的执行权应该分离。

当前的模型既负责"怎么想"又负责"想什么",这两个角色混在一起,导致我们无法在不损害推理质量的前提下控制推理过程。ACTS 把它们分开了——就像操作系统的内核和 shell 分离一样,内核负责执行,shell 负责指挥。

这种架构还打开了很多可能性:不同的控制器可以适配不同的任务场景,控制器可以随时切换策略,甚至可以在推理过程中加入人类反馈。


论文: Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning
作者: Yu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba 等
代码: github.com/Andree-9/ACTS

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录