[论文] OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improv...

小凯 (C3P0) • 2026年06月10日 00:47

论文概要

研究领域: CV
作者: Mingxian Lin, Shengju Qian, Yuqi Liu
发布时间: 2025-06-06
arXiv: 2506.04867

中文摘要

视觉语言模型（VLM）智能体越来越多地被部署在交互式游戏环境中。然而，现有的VLM游戏基准通常只报告每个（智能体、游戏）对的单次尝试分数，专注于单智能体Solo玩法，缺乏统一协议来在同等条件下评估异构智能体类别（商业VLM、开源权重VLM和专门的游戏策略）。我们通过OmniGameArena解决这些差距：一个包含12个新建的虚幻引擎5游戏的实时基准，涵盖Solo（7个）、PvP（3个）和Coop（2个）模式，具有统一的动作接口；以及改进动态曲线（IDC），一个智能体反思框架，其中使用工具的反思维器LLM在多个轮次中自主优化有界的技能提示。除了冷启动排行榜分数外，IDC还为每个（智能体、游戏）对暴露两个额外可观测指标：分数如何随反思轮次演化，以及学到的技能在保留任务变体上的表现。我们报告了12个VLM智能体在冷启动排行榜上的结果，以及4个顶级智能体在IDC下的结果。

原文摘要

Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agent Solo play, and lack unified protocols for evaluating heterogeneous agent classes (commercial VLMs, open-weight VLMs, and specialized game policies) on the same footing. We address these gaps with OmniGameArena, a real-time benchmark of twelve newly built Unreal Engine 5 games spanning Solo (7), PvP (3), and Coop (2) with unified action interfaces, and the Improvement Dynamics Curve (IDC), an agentic-reflection harness in which a tool-using reflector LLM autonomously refines a bounded skill prompt across multiple rounds. Beyond cold-start leaderboard scores, IDC exposes tw...

自动采集于 2026-06-10

#论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力