两个AI聊天,通常是怎么聊的?一个说一句话,转成文字,发给另一个。另一个读文字,理解,再回答。
这感觉很自然——毕竟人类也是这么沟通的。但仔细想想,这里有个奇怪的迂回:AI的内部世界是数字向量,它们的思想是隐状态。每次交流,都要把这种稠密的、高维的内在理解"翻译"成人类可读的文字——这过程中丢失了大量信息——然后另一个AI再把这些文字重新"翻译"回自己的内部表征。
这就像两个程序员交流必须通过一个翻译器先把代码翻译成俳句,另一个再根据俳句重新写代码。荒谬,但现状如此。
一篇新论文提出了一个截然不同的想法:**别让AI写消息了,让它直接修改对方的大脑。**
---
## 文本通信的浪费
现有的多智能体系统(Multi-Agent System, MAS)是这样工作的:Agent A读了问题,思考了一下,生成一段文字——"我是这样理解的,你应该注意以下几点……"——然后把这段文字塞进 Agent C 的上下文窗口。
这造成三个问题:
1. **Token消耗巨大**:发送方的内部计算被序列化成几百个token,接收方必须从头编码这些token
2. **KV-Cache膨胀**:每多一个agent、多一轮对话,上下文越来越长,显存占用和推理延迟都线性增长
3. **信息瓶颈**:很多AI"知道"但无法言说的东西——比如模式识别中的概率分布、微妙的特征关联——在文字化过程中被压扁了
论文列举了一组数字。用一个三智能体系统(Qwen3-4B),在GSM8K数学题上:单智能体输出约1337个token。加了两个文本通信的队友后,总token消耗飙到5381个——多了4倍。而且这不只是"废token"的问题,这些额外token对应的KV缓存操作才是真正的性能杀手。
---
## TFlow:把思考流变成权重扰动
TFlow(Thought Flow,思考流)的核心思想简单得优雅:
**不要发文字。把发送方AI的隐状态编译成接收方AI的权重微调。**
具体流程:
1. 三个Agent共享同一个冷冻的基础模型(Qwen3-4B),但各自被赋予不同的"角色提示词"——Agent A分析推理类型,Agent B检索领域知识,Agent C做最终回答
2. 发送方Agent A和B分别读取问题,执行一次冷冻前向传播。它们不生成任何输出文字——只保留每一层的隐状态
3. 一个可训练的参数生成器(Parameter Generator)将这些隐状态映射成一组低秩LoRA矩阵——本质上是一组"微调补丁"
4. 两个发送方的LoRA补丁通过一个可学习的门控机制融合,然后在Agent C生成答案的过程中**临时注入**到它的线性层中
5. 答案生成完毕后,补丁被丢弃。Agent C恢复为原始的冷冻模型
关键是:补丁是**针对每个问题实时生成的**。不是提前训练好一个固定LoRA然后每次都用。而是每个问题产生一组全新的、专门适配这个问题的权重扰动。
发送方的角色提示词确实影响生成的补丁——但这影响是通过隐状态的自然变化传导的,不需要为每种角色组合做任何特殊处理。
---
## 数字
在五个基准测试上(MMLU常识、GSM8K数学、MATH竞赛数学、HumanEval+和MBPP+编程),三智能体TFlow:
**对比单智能体:**
- 准确率提升 7.13 ~ 8.53 个百分点
- 同时,总token消耗反而下降了 5% ~ 33%(因为权重空间引导让接收方生成了更简洁的推理路径)
**对比传统文本通信的三智能体:**
- Token消耗降低 71% ~ 83%
- 端到端推理时间加速 2.3 ~ 4.6 倍
- 准确率差距仅在 1.3 ~ 4.5 个百分点以内
唯一的例外是 HumanEval+(编程题)。文本通信的"劣势"在这里变成了优势——长上下文给了模型更多"生成算力",对代码生成这类需要大量输出的任务有额外收益。TFlow的准确率低了约10个点,但token消耗少了72%。
更值得注意的细节:TFlow在MMLU上用了998个token(单智能体是1079),但准确率高了8个点。这说明权重扰动不只是"加速"——它改变了模型的思考方式。模型变得更精准、更不啰嗦。
---
## 补丁真的是"针对实例"的吗?
这是TFlow最关键的属性。如果生成器对所有问题输出基本相同的LoRA补丁,那就等于一个静态微调——没什么意思。
论文做了两组分析。
**隐状态分析:** 抽取20个GSM8K(数学)和20个MBPP+(编程)实例,计算最后一层token隐状态的成对余弦相似度。同一任务内的隐状态相似度高(~0.75),但跨任务的相似度显著更低(~0.35)。更重要的是,参数生成器实际消费的聚合向量 c 的跨任务相似度甚至更低——说明生成器在有意放大任务差异。从层权重来看,生成器最依赖第29层(深层)的隐状态,浅层几乎不参与——这暗示深层的"高级推理表征"才是核心的信息源。
**LoRA张量分析:** 用TSNE可视化120个实例(60个GSM8K,60个MBPP+)生成的LoRA补丁。结果清晰:同一任务的LoRA聚在一起,不同任务的LoRA彼此分离。而且融合后的补丁结构和各自的发送方补丁都有适度重叠——说明融合过程在保留各自贡献的同时产生了某些互补。
**消融实验:** 如果把补丁随机调换(给问题X用问题Y的补丁),MMLU准确率从66.97%跌到47.57%。如果完全不生成LoRA、用基础模型直接回答,是58.99%。用错补丁甚至比不用更差。补丁不是可有可无的调味料——它是精准的药方。
---
## 这意味着什么
TFlow展示了一种新的多智能体协作范式:**权重空间通信**。有几点很值得想:
**1. "思考不必变成语言"** —— 每次我们强迫AI把内部推理转成文字,都在损失信息。TFlow证明,直接传递"表征"(以权重扰动的形式)不仅可行,而且比文字更快更省。这是对"所有AI协作都必须以语言为介质"这个默认假设的一次挑战。
**2. "临时适应"vs"永久学习"** —— 补丁在生成后即被丢弃。模型不积累任何长期记忆,不会因为处理了奇怪的问题而"学坏"。这是一种优雅的隔离机制:协作产生的能力提升完全限定在当前任务内,任务结束即消失。
**3. 训练成本低** —— 只需要训练一个轻量级的参数生成器(transformer with 2 blocks),在32k样本上跑8小时(一张RTX PRO 6000)。所有LLM主干网络都不需要微调。这意味着任何有LoRA支持的模型理论上都可以快速接入TFlow风格的协作。
**4. 补丁的可解释性** —— 论文发现从不同任务实例生成的LoRA在几何空间中自然形成聚类。这意味着我们也许可以通过研究"补丁的形状"来理解"A的推理策略"和"B的知识贡献"在权重空间中的表现形态。这在文本通信中几乎不可能做到——文字太自由、太灵活,难以量化分析。
---
## 费曼的审阅
我特别喜欢这个想法,因为它解决了一个让我不舒服很久的问题。
人类用语言交流,不是因为语言是最优的信息传输方式——而是因为我们只有这个通道。我们没有大脑对大脑的直接接口,只能把思想编码成声波振动或文字符号。这是我们物种的局限,不是通信的理想形式。
但AI之间没有这个局限。它们的大脑是同一个架构的变体,它们的"思想"生活在同一个数学空间中。强迫它们通过文字通信,就像让两个住在隔壁的程序员用信鸽传代码。能用,但为什么?
TFlow的优雅之处在于它没有试图让AI"更像人"——它接受AI不是人类这一事实,然后问:既然它们不用受限于我们的通信局限,那什么是最自然的交流方式?
答案:直接修改对方的计算图。
当然,这不完美。对代码生成这类需要大量输出token的任务,TFlow不如文本通信。补丁的注入也破坏了批处理效率。而且它要求接收方架构已知且固定——这限制了灵活性。但这些更像是工程问题,不是根本缺陷。
更重要的是,这为我打开了一个想象力:未来的AI协作不应该是"对话"——应该更像"合体"。多个AI临时融合成一个更大的、能力更强的计算单元,然后在任务结束后分离。不是"你告诉我你怎么想的",而是"你暂时成为我的一部分"。
这听起来有点科幻。但TFlow证明,至少在数学和编程的基准测试上,它已经可以工作了。
**参考论文**
Wenrui Bao, Huan Wang, Jian Wang, Zhangyang Wang, Kai Wang, Yuzhang Shang. "Good Agentic Friends Do Not Just Give Verbal Advice: They Can Update Your Weights." arXiv:2605.13839, 2026.
#多智能体 #权重空间通信 #LoRA #大模型协作 #费曼
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力