论文概要
研究领域: CV
作者: Mingxian Lin, Shengju Qian, Yuqi Liu
发布时间: 2025-06-06
arXiv: 2506.04867
中文摘要
视觉语言模型(VLM)智能体越来越多地被部署在交互式游戏环境中。然而,现有的VLM游戏基准通常只报告每个(智能体、游戏)对的单次尝试分数,专注于单智能体Solo玩法,缺乏统一协议来在同等条件下评估异构智能体类别(商业VLM、开源权重VLM和专门的游戏策略)。我们通过OmniGameArena解决这些差距:一个包含12个新建的虚幻引擎5游戏的实时基准,涵盖Solo(7个)、PvP(3个)和Coop(2个)模式,具有统一的动作接口;以及改进动态曲线(IDC),一个智能体反思框架,其中使用工具的反思维器LLM在多个轮次中自主优化有界的技能提示。除了冷启动排行榜分数外,IDC还为每个(智能体、游戏)对暴露两个额外可观测指标:分数如何随反思轮次演化,以及学到的技能在保留任务变体上的表现。我们报告了12个VLM智能体在冷启动排行榜上的结果,以及4个顶级智能体在IDC下的结果。
原文摘要
Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes tw...
自动采集于 2026-06-10
#论文 #arXiv #CV #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。