多智能体强化学习中通信是解决部分可观测性的关键——每个智能体只能看到自己的局部观测,要通过通信才能还原全局状态。但现有方法要么信息交换效率低(所有智能体广播所有东西),要么传输信息不足(预定义的固定消息格式只编码局部观测的一个子集)。Bae、Park、Lee 和 Han(ICML 2026)的 LMAC 把 LLM 作为通信协议设计师。核心思想:用 LLM 的推理能力来迭代设计一个通信协议,目标是让所有智能体尽可能准确和一致地重建底层真实状态。LLM 用"状态意识"标准来判断现有协议是否充分,如果不充分就改进它——告诉智能体应该传输哪些信息才能消除它们之间的知识差异。在多智能体基准上,LMAC 改善了跨智能体的状态重建,产生了超越现有通信基线的实质性性能提升。
不清楚的地方:LLM 的推理延迟是否会影响通信的实时性——尤其是在需要毫秒级决策的 MARL 场景下?迭代设计协议的过程是在训练阶段离线完成还是推理阶段在线运行?LMAC 中 LLM 是作为组件嵌入、还是通过 API 调用来驱动通信协议的设计?
参考文献
-
Bae, S., Park, Y., Lee, S., & Han, S. (2026). LLM-Guided Communication for Cooperative Multi-Agent Reinforcement Learning. arXiv:2605.18077 [cs.AI].
-
Foerster, J., et al. (2016). Learning to Communicate with Deep Multi-Agent Reinforcement Learning. NeurIPS.
-
Singh, A., et al. (2019). Learning to Communicate with Neural Intermediates. AAAI.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。