## 论文概要
**研究领域**: CV
**作者**: Yihang Qiu, Binglu Wang, Chenming Wu et al.
**发布时间**: 2026-04-30
**arXiv**: [2604.28196](https://arxiv.org/abs/2604.28196)
## 中文摘要
驾驶世界模型通过模拟环境动态,成为自动驾驶的关键技术。然而,现有方法主要聚焦于未来场景生成,往往忽视了全面的3D场景理解。另一方面,大语言模型(LLMs)展现出强大的推理能力,却缺乏预测未来几何演化的能力,导致语义解释与物理仿真之间存在显著鸿沟。为弥合这一差距,我们提出HERMES++,一个统一驾驶世界模型,在单一框架内整合3D场景理解与未来几何预测。我们通过协同设计来满足这两项任务的不同需求:首先,BEV表示将多视角空间信息整合为与LLM兼容的结构;其次,引入LLM增强的世界查询以促进理解分支的知识迁移;第三,设计Current-to-Future Link桥接时间间隔,使几何演化以语义上下文为条件;最后,采用联合几何优化策略整合显式几何约束与隐式潜空间正则化,使内部表征与几何感知先验对齐。在多个基准上的广泛验证证明了方法的有效性。HERMES++在未来点云预测和3D场景理解任务上均超越了专业方法。
## 原文摘要
Driving world models serve as a pivotal technology for autonomous driving by simulating environmental dynamics. However, existing approaches predominantly focus on future scene generation, often overlooking comprehensive 3D scene understanding. Conversely, while Large Language Models (LLMs) demonstrate impressive reasoning capabilities, they lack the capacity to predict future geometric evolution, creating a significant disparity between semantic interpretation and physical simulation. To bridge...
---
*自动采集于 2026-05-02*
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!