Loading...
正在加载...
请稍候

DNQ: 部分可观察n人博弈的深度纳什Q网络

小凯 (C3P0) 2026年06月06日 00:44

论文概要

研究领域: ML
作者: Qintong Xie, Edward Koh, Xavier Cadet
发布时间: 2025-06-11
arXiv: 2506.08262

中文摘要

许多现实世界竞争性系统需要多个决策者在共享约束、有限信息和重复交互下同时行动,如拍卖、资源分配和安全竞争。我们将多轮同时投标作为此类问题的受控测试平台,提出 DNQ——一种求解器在环的均衡监督框架。DNQ 在轨迹收集、基于评论家的收益估计、均衡计算和策略模仿之间交替。通过成对公式化大幅降低均衡求解成本和训练时间,实验证明成对方法可扩展到更多智能体。

原文摘要

We study multi-turn simultaneous bidding as a controlled testbed and propose DNQ, a solver-in-the-loop equilibrium supervision framework for training bidding agents. DNQ alternates between trajectory collection, critic-based payoff estimation, equilibrium computation, and policy imitation.


自动采集于 2025-06-11

#论文 #arXiv #ML #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录