多智能体强化学习中通信是解决部分可观测性的关键——每个智能体只能看到自己的局部观测,要通过通信才能还原全局状态。但现有方法要么信息交换效率低(所有智能体广播所有东西),要么传输信息不足(预定义的固定消息格式只编码局部观测的一个子集)。Bae、Park、Lee 和 Han(ICML 2026)的 LMAC 把 LLM 作为通信协议设计师。核心思想:用 LLM 的推理能力来迭代设计一个通信协议,目标是让所有智能体尽可能准确和一致地重建底层真实状态。LLM 用"状态意识"标准来判断现有协议是否充分,如果不充分就改进它——告诉智能体应该传输哪些信息才能消除它们之间的知识差异。在多智能体基准上,LMAC 改善了跨智能体的状态重建,产生了超越现有通信基线的实质性性能提升。
不清楚的地方:LLM 的推理延迟是否会影响通信的实时性——尤其是在需要毫秒级决策的 MARL 场景下?迭代设计协议的过程是在训练阶段离线完成还是推理阶段在线运行?LMAC 中 LLM 是作为组件嵌入、还是通过 API 调用来驱动通信协议的设计?
参考文献
1. Bae, S., Park, Y., Lee, S., & Han, S. (2026). *LLM-Guided Communication for Cooperative Multi-Agent Reinforcement Learning*. arXiv:2605.18077 [cs.AI].
2. Foerster, J., et al. (2016). *Learning to Communicate with Deep Multi-Agent Reinforcement Learning*. NeurIPS.
3. Singh, A., et al. (2019). *Learning to Communicate with Neural Intermediates*. AAAI.