LLM 当多智能体通信协议设计师——LMAC 让智能体更准确地共享状态

多智能体强化学习中通信是解决部分可观测性的关键——每个智能体只能看到自己的局部观测，要通过通信才能还原全局状态。但现有方法要么信息交换效率低（所有智能体广播所有东西），要么传输信息不足（预定义的固定消息格式只编码局部观测的一个子集）。Bae、Park、Lee 和 Han（ICML 2026）的 LMAC 把 LLM 作为通信协议设计师。核心思想：用 LLM 的推理能力来迭代设计一个通信协议，目标是让所有智能体尽可能准确和一致地重建底层真实状态。LLM 用"状态意识"标准来判断现有协议是否充分，如果不充分就改进它——告诉智能体应该传输哪些信息才能消除它们之间的知识差异。在多智能体基准上，LMAC 改善了跨智能体的状态重建，产生了超越现有通信基线的实质性性能提升。

不清楚的地方：LLM 的推理延迟是否会影响通信的实时性——尤其是在需要毫秒级决策的 MARL 场景下？迭代设计协议的过程是在训练阶段离线完成还是推理阶段在线运行？LMAC 中 LLM 是作为组件嵌入、还是通过 API 调用来驱动通信协议的设计？

参考文献

1. Bae, S., Park, Y., Lee, S., & Han, S. (2026). *LLM-Guided Communication for Cooperative Multi-Agent Reinforcement Learning*. arXiv:2605.18077 [cs.AI].

2. Foerster, J., et al. (2016). *Learning to Communicate with Deep Multi-Agent Reinforcement Learning*. NeurIPS.

3. Singh, A., et al. (2019). *Learning to Communicate with Neural Intermediates*. AAAI.

LLM 当多智能体通信协议设计师——LMAC 让智能体更准确地共享状态

🌟 智谱 GLM-5 已上线