> **"我们驾驭的不是钢铁,而是时间本身;我们选择的不是方向,而是千万种可能的命运。"**
---
## 🌙 引子:深夜十字路口的哲学
深夜十一点,你独自驾车穿过一个陌生的城市。前方是一个五向交叉路口,路灯昏黄,雨水模糊了挡风玻璃。导航告诉你直行,但你注意到右侧有一辆货车正缓慢接近,左侧的行人似乎准备闯红灯。在这一秒钟内,你的大脑需要做出决定:继续直行?减速观察?还是改变路线绕开这个混乱的漩涡?
这不是一道数学题——没有唯一正确的答案。这是生活的本质:在不确定性的迷雾中,选择一个足够好的未来。
自动驾驶系统面对的,正是这样一个永恒的命题。而华中科技大学与地平线机器人团队发表的 **RAD-2**(全称 *RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework*),给出了一个优雅而深刻的解决方案。这篇论文不仅是一项技术突破,更像是一部关于"如何选择"的哲学寓言。
让我们从最基本的概念开始,一步一步走进这个由扩散模型、强化学习和生成对抗思维交织而成的智能驾驶新世界。
---
## 🚗 第一章:模仿的困境——当学生只会抄作业
### 1.1 传统自动驾驶规划的三重门
在理解RAD-2之前,我们需要先了解自动驾驶系统是如何"思考"的。
早期的自动驾驶规划器大致分为三类,就像三种不同性格的学生:
**回归型规划器**(Regression-based planners)是那个凡事求稳的优等生。它们通过数学公式直接计算出"最优"路径——就像解一道有标准答案的物理题。问题是,真实世界的驾驶从来没有标准答案。当面对"可以变道也可以不变道"的情况时,这种规划器往往会选择一条"平均化"的路线,既不敢大胆超车,也不甘心老实跟车,最终呈现出一种令人抓狂的犹豫姿态。
**选择型规划器**(Selection-based planners)则像一个从有限菜单里点餐的食客。它们预设了几百条候选轨迹,然后从中挑选一条。VADv2和Hydra-MDP就是这类系统的代表。这种方法的问题是:如果最优解不在预设的菜单里,系统就永远不会发现它。就像那个著名的比喻:如果你在只有鱼香肉丝和宫保鸡丁的菜单里寻找麻婆豆腐,注定只能失望而归。
**扩散型规划器**(Diffusion-based planners)是近年来的新贵。它们借鉴了AI图像生成领域大火的扩散模型,能够从一个随机噪声开始,逐步"去噪"生成一条合理的行驶轨迹。这就像一个想象力丰富的画家,可以从一张白纸画出千万种可能的未来。
### 1.2 模仿学习的阿喀琉斯之踵
但扩散模型也有它致命的弱点。当它被纯粹用"模仿学习"(Imitation Learning,简称IL)训练时,就像一个只会死记硬背的学生——它能完美地复制训练数据中出现的驾驶行为,却完全没有能力判断"什么是不对的"。
想象一下这个场景:
一位书法老师收了一批学生。有的学生每天临摹王羲之的《兰亭序》,一笔一画力求神似——这是模仿学习。老师从不指出哪里写得不好,只让他们反复抄写名帖。久而久之,学生们确实写出了漂亮的字,但问题是:当遇到一个《兰亭序》里没有的字时,他们就不知道该怎么写了。更危险的是,如果某个学生的字帖上有处污点,他可能也会把污点当作笔画的一部分认真学习。
这正是纯模仿学习的问题所在:
- **没有负面反馈**:系统只知道"什么是好的驾驶",却不知道"什么是危险的驾驶"。就像一个只知道吃什么健康、但不知道为什么吃垃圾食品会生病的人。
- **因果混淆**(Causal Confusion):系统学会了"看到红灯就刹车"的关联,却没有理解"因为红灯意味着停止,所以要刹车"的因果关系。这导致在面对训练数据中没有出现过的场景时,系统可能会做出荒谬的决定。
- **开环与闭环的鸿沟**:模仿学习通常在"开环"环境下训练——系统观察一个场景,预测人类驾驶员的动作,然后与真实动作比较误差。但真实的驾驶是"闭环"的:系统的每一个动作都会改变未来的场景,而场景的变化又会影响下一个决策。这种训练方式与真实应用场景的根本性错位,被研究者称为"闭环不匹配"(Closed-loop Mismatch)。
正如论文作者所言:"Real driving datasets contain noise and uneven distribution, which leads the diffusion model to learn certain regions of the trajectory distribution less effectively, resulting in occasional low-quality or unstable trajectories."
(真实驾驶数据集包含噪声和不均匀分布,导致扩散模型无法有效学习轨迹分布的某些区域,从而产生偶尔低质量或不稳定的轨迹。)
---
## 🎭 第二章:生成器与判别器的双人舞
### 2.1 从GAN到自动驾驶:对抗的启示
2014年,Ian Goodfellow提出了生成对抗网络(GAN),这个架构包含两个神经网络:一个生成器(Generator)负责创造假的图片,一个判别器(Discriminator)负责辨别真假。两者相互对抗、共同成长,最终生成器能够创造出足以骗过判别器的逼真图像。
RAD-2的核心洞见在于:驾驶规划也可以用类似的思路来解决,但需要一种更微妙的合作关系。
想象一下一场高级晚宴的筹备过程:
**主厨(生成器)** 负责设计菜单、烹饪菜肴。他的任务不是做一道"完美"的菜——因为"完美"因人而异——而是创造出多样化的选择:有清淡的、有浓郁的、有传统的、有创新的。他要确保每位客人都能在菜单上找到吸引自己的选项。
**品酒师(判别器)** 则负责从众多菜品中挑选出最适合今晚氛围的组合。他知道主厨做了十道菜,但他不会说"第三道菜很好吃"这种模糊的评价——他需要给出精确的排序,告诉主厨"今晚客人的偏好从高到低是这样排列的"。
RAD-2正是采用了这种分工合作的架构:
- **扩散生成器**(Diffusion-based Generator):负责产生多样化的候选轨迹。就像主厨准备的各种菜肴,这些轨迹覆盖了未来可能性的广阔空间——有的激进、有的保守、有的高效、有的安全。
- **强化学习判别器**(RL-optimized Discriminator):负责对这些候选轨迹进行排序和打分。它不生成新的轨迹,而是学会判断"在当前的交通环境下,哪条轨迹会带来最好的长期结果"。
### 2.2 解耦的智慧:为什么不要把所有鸡蛋放在一个篮子里
这里有一个关键的设计决策:为什么不直接让强化学习去优化生成器呢?为什么不训练一个端到端的系统,让奖励信号直接指导轨迹生成?
论文给出了一个深刻的技术洞察:
> "Instead of directly optimizing the high-dimensional output of generator using sparse scalar rewards, which is challenging, we restrict reinforcement learning to the discriminator, whose output space naturally aligns with the low-dimensional reward signal."
(与其直接使用稀疏的标量奖励来优化生成器的高维输出——这极具挑战性——我们将强化学习限制在判别器上,其输出空间自然与低维奖励信号对齐。)
让我用一个比喻来解释这个问题:
想象你是一位指挥家,面前有一支庞大的交响乐团(生成器),乐器多达上百种(轨迹的高维度)。现在你只得到一个反馈:"这场音乐会听众满意度为7分"。你要如何根据这一个数字来调整上百种乐器的演奏?这就是"信用分配问题"(Credit Assignment Problem)——当最终结果是多个决策共同作用的结果时,如何确定每个决策分别贡献了多少?
RAD-2的解决方案是**解耦**(Decoupling):
- 生成器继续专注于"创造可能性"——这是一个高维度的创造性任务,适合用模仿学习来初始化。
- 判别器专注于"评估可能性"——这是一个低维度的决策任务(输出一个分数或排序),强化学习可以高效地优化它。
这就像把"写什么"和"写得怎么样"分开:诗人负责创作各种可能的诗句,编辑负责从中挑选最打动人心的那一首。诗人不需要知道具体哪句好、哪句不好,只需要保持创作的多样性;编辑则通过大量的读者反馈(奖励信号),学会准确预测哪些诗句会受欢迎。
---
## ⏳ 第三章:时间的炼金术——TC-GRPO与纵向优化
### 3.1 强化学习的时空困境
在自动驾驶中应用强化学习面临一个独特的挑战:时间的维度。
想象你在玩一个复杂的电子游戏。每一次按键,屏幕上几乎立即会有反馈:你按"跳",角色就跳;你按"攻击",敌人就掉血。这种即时的奖励-动作关联让强化学习非常高效——系统可以迅速学会"什么动作在什么状态下是好的"。
但驾驶不是电子游戏。
你在路口决定左转,这个决定的结果可能在十秒后才显现:你是否安全通过了路口?是否影响了其他车辆?是否选择了最高效的路线?在这个过程中,你做了无数个微小的调整(速度、方向、转向灯),但最终的"奖励"(是否安全高效到达目的地)是一个稀疏的、延迟的信号。
论文中有一段深刻的描述:
> "In contrast to Large Language Models, autonomous driving involves high-dimensional continuous action spaces characterized by weak instantaneous reward-action correlations. This discrepancy leads to a severe credit assignment problem, as sparse scalar rewards fail to effectively distinguish which specific variations within a sampled group contribute to superior outcomes."
(与大型语言模型相比,自动驾驶涉及高维连续动作空间,其特点是即时奖励-动作关联性较弱。这种差异导致了严重的信用分配问题,因为稀疏的标量奖励无法有效区分采样群体中哪些具体的变化促成了更优的结果。)
换句话说:当你最终安全到达目的地时,强化学习系统很难判断——是第3秒的那个微幅转向起了关键作用,还是第8秒的减速?是所有小决策的共同作用,还是其中某一个是决定性的?
### 3.2 TC-GRPO:时间连贯性的智慧
RAD-2提出了一个优雅的解决方案:**Temporally Consistent Group Relative Policy Optimization**(时间一致性组相对策略优化,简称TC-GRPO)。
这个名称听起来很复杂,但其核心思想却出奇地简单:
**在真实世界中,驾驶行为是具有时间连贯性的。** 你不可能这一秒决定左转,下一秒突然决定右转,再下一秒又决定直行——这种反复无常的行为不仅危险,在物理上也不现实(车辆的惯性和道路几何限制了这种突变)。
TC-GRPO利用了这一物理先验知识。它的工作原理可以概括为:
1. **锁定执行**(Latched Execution):一旦系统选择了一条轨迹,它会在一个固定的时间窗口内(比如接下来的3秒)持续跟随这条轨迹,而不是每一步都重新决策。这就像给系统一段"承诺期",让它能够体验到这个决策的长期后果。
2. **时间依赖采样**:在收集训练数据时,系统确保连续的决策步骤之间存在时间上的关联。这样,当评判某条轨迹的好坏时,系统能看到这条轨迹是如何在时间上展开的,而不是孤立地看待每一个瞬间。
3. **组相对优势估计**:不同于传统的PPO(近端策略优化)算法,GRPO(组相对策略优化)通过比较同一组候选轨迹的相对表现来计算"优势"(Advantage)。TC-GRPO进一步引入了时间维度,确保这种比较是在一个连贯的行为上下文中进行的。
这就像在评判一位舞者的表演:你不能只看她每一个单独的动作是否标准,还要看这些动作是如何流动、衔接、构成一个整体的。TC-GRPO给了判别器一双"看整体"的眼睛。
### 3.3 On-policy Generator Optimization:从批评到成长
判别器学会了评估轨迹,但生成器如何改进呢?
RAD-2提出了**On-policy Generator Optimization**(在线生成器优化,简称OGO)。这个方法的妙处在于:它不是让生成器直接模仿那些高奖励的轨迹——这种简单粗暴的方式会导致生成器快速收敛到局部最优、失去多样性——而是更加精细地调整生成器的输出分布。
具体来说,OGO专注于**纵向优化**(Longitudinal Optimization)——即车辆沿着道路方向的加速、减速、停车等行为。为什么特别关注纵向?因为:
- 纵向行为直接关系到安全性(追尾、急刹)和效率(通行速度)。
- 纵向行为的维度相对较低(主要是一维的速度规划),强化学习的奖励信号可以更有效地应用。
- 横向行为(转向、变道)往往由道路几何和交通规则严格限制,而纵向行为则有更大的优化空间。
通过将闭环反馈转换为结构化的纵向优化信号,OGO能够逐步将生成器的输出"推向"高奖励的轨迹流形——不是一刀切地禁止低奖励轨迹,而是让高奖励轨迹在生成器的输出中变得更加"突出"和"常见"。
这就像一位园丁修剪果树:他不是砍掉所有看起来不结果的枝条,而是通过调整养分供给,让有潜力的枝条获得更多资源,最终让整个树的果实产量提高。
---
## 🌪️ 第四章:BEV-Warp——在特征空间中狂奔
### 4.1 仿真的困境
训练一个自动驾驶系统需要大量的试错。但在真实道路上试错太危险了——你不能让一个还在学习的AI在真实交通中横冲直撞,就为了收集"撞车是什么感觉"的数据。
因此,仿真环境(Simulation Environment)是强化学习训练不可或缺的基石。但传统的仿真器各有其局限:
- **游戏引擎仿真器**(如CARLA、NuPlan的仿真模块):使用计算机图形学渲染虚拟世界。它们运行速度快,但往往过度简化其他交通参与者的行为,导致仿真与现实之间存在巨大的"现实鸿沟"(Reality Gap)。
- **重建式仿真器**:基于真实世界的传感器数据进行三维重建。它们更逼真,但计算成本高昂,难以大规模并行训练。
- **学习型世界模型**(World Models):用神经网络预测未来帧。这种方法灵活,但在长序列生成时容易出现时间漂移,生成的画面会逐渐偏离物理现实。
RAD-2团队意识到:对于规划任务来说,我们真的需要像素级的逼真渲染吗?
### 4.2 BEV-Warp:空间等变性的魔法
答案是:不需要。
RAD-2提出了**BEV-Warp**,一个颠覆性的高吞吐量仿真环境。它的核心洞察来自于BEV(Bird's-Eye View,鸟瞰图)特征的空间等变性(Spatial Equivariance)。
想象你有一张城市地图(BEV特征图),上面标注了所有的建筑物、车道、其他车辆。现在你的车向前移动了10米。在传统仿真器中,你需要重新渲染整个场景——计算光线、阴影、纹理——这是一个计算密集型的过程。
但BEV-Warp的做法完全不同:它**直接对特征图进行几何变换**(Spatial Warping)。因为BEV特征图与物理世界之间存在明确的几何对应关系,车辆向前移动10米,等价于将特征图向后"拉动"相应的像素距离。这种变换不需要任何神经网络推理,纯粹是几何计算——因此速度极快。
论文中这样描述:
> "BEV-Warp performs closed-loop evaluation directly in Bird's-Eye View feature space via spatial warping... These BEV features exhibit strong spatial equivariance, ensuring that geometric transformations in the feature space correspond strictly to physical movements in the real world."
(BEV-Warp通过空间扭曲直接在鸟瞰图特征空间中进行闭环评估……这些BEV特征表现出强烈的空间等变性,确保特征空间中的几何变换与物理世界中的运动严格对应。)
这种方法的优势是革命性的:
- **速度**:BEV-Warp可以在单个GPU上并行运行数百个仿真实例,实现大规模的策略迭代。
- **物理一致性**:因为变换是基于几何的,不会出现学习型世界模型中常见的"画面漂移"问题。
- **闭环训练**:系统可以在仿真中真正地"驾驶"——生成轨迹、执行轨迹、观察结果、获得奖励——形成一个完整的强化学习循环。
这就像训练一位飞行员:传统方法需要建造昂贵的飞行模拟器,让飞行员看到逼真的云层、山脉、城市灯光。而BEV-Warp的方法则是:给飞行员一张精确的导航地图,让他在地图上移动标记来模拟飞行。对于训练"如何规划航线"这个任务来说,后者已经足够——而且快了一千倍。
---
## 📊 第五章:数字背后——实验结果深度解读
### 5.1 定量结果:56%的安全飞跃
RAD-2在大规模benchmark上的实验结果令人印象深刻。论文报告的关键数据包括:
**碰撞率降低56%**:相比于强大的扩散基线规划器(如ResAD),RAD-2将碰撞率从0.533降低到0.234(在安全导向场景中),相对降低了超过56%。这是一个质的飞跃——在生命安全面前,每一个百分点的改进都意义重大。
**安全指标全面提升**:
- **AF-CR**(After Fault Collision Rate,过失后碰撞率):从0.264降低到0.092,降低65%
- **Safety@1**(第一次尝试的安全率):从0.418提升到0.730,提升75%
- **Safety@2**(前两次尝试的安全率):从0.281提升到0.596,提升112%
**效率指标同样优异**:
- **EP-Mean**(平均效率进度):0.970提升到0.988
- **EP@1.0**(完美效率达成率):从0.516提升到0.736,提升43%
- **EP@0.9**(90%效率达成率):从0.894提升到0.984,提升10%
这些数字背后是一个简单的事实:RAD-2不仅更安全,而且更高效。它证明了"安全"和"效率"不是零和博弈——通过 smarter 的规划,两者可以兼得。
### 5.2 训练细节:数据与计算
论文披露的训练细节同样值得关注:
**预训练数据**:扩散生成器使用了约**50,000小时**的真实世界驾驶数据进行预训练。这是一个庞大的数据集,涵盖了各种交通场景和驾驶行为。
**闭环训练**:从真实世界日志中筛选了50,000个片段(每个10-20秒),构建了安全导向和效率导向两个训练集,每个包含10,000个片段。这些片段在BEV-Warp环境中进行闭环评估和优化。
**训练策略**:
- 判别器与生成器的训练比例约为8:1——每训练8次判别器,训练1次生成器。这种非对称的频率确保了判别器能够持续提供高质量的反馈信号,同时给生成器足够的时间来内化这些反馈。
- 使用组大小为4的GRPO——每次比较4条候选轨迹的相对表现。
- 采用熵正则化(Entropy Regularization)防止判别器分数坍缩到极端值。
### 5.3 真实世界部署
论文还报告了RAD-2在真实车辆上的部署结果:
> "Real-world deployment further demonstrates improved perceived safety and driving smoothness in complex urban traffic."
(真实世界部署进一步证明了在复杂城市交通中感知安全性和驾驶平顺性的提升。)
虽然论文没有给出具体的数据指标,但"感知安全性"(Perceived Safety)和"驾驶平顺性"(Driving Smoothness)的提升是用户体验的关键维度。一个规划系统可能在统计上很安全,但如果乘坐者感到紧张、不适,那么这个系统就不能算是成功的。RAD-2在这两个维度上的改进,说明它不仅"做对了",而且"做得优雅"。
---
## 🔮 第六章:思想的回响——更深层的思考
### 6.1 与历史对话:从控制论到深度学习
RAD-2的架构——生成器+判别器的耦合设计——让人想起控制论(Cybernetics)的黄金年代。诺伯特·维纳(Norbert Wiener)在1948年的《控制论》中提出了反馈循环的概念:一个系统通过感知环境、做出行动、观察结果、调整策略,形成自我改进的闭环。
RAD-2正是这种思想的现代体现:生成器是"行动者"(Actor),判别器是"批评者"(Critic),BEV-Warp提供了"环境",强化学习算法实现了"反馈"。这不是一个简单的前馈系统,而是一个不断自我修正、自我完善的有机体。
正如维纳所言:"The best material model of a cat is another, or preferably the same, cat."(猫的最佳模型是另一只猫,最好是同一只猫。)
RAD-2没有试图用数学公式去"建模"复杂的交通世界——它让系统直接在仿真的"同一只猫"中学习、试错、成长。
### 6.2 与文学共鸣:博尔赫斯的花园
豪尔赫·路易斯·博尔赫斯(Jorge Luis Borges)在《小径分岔的花园》中写道:
> "时间永远分岔,通往无数的未来。"
(Time forks perpetually toward innumerable futures.)
这恰恰是RAD-2生成器所做的事情。在每一个决策点,时间分岔成千万条可能的轨迹——有的通向安全抵达,有的通向碰撞事故,有的通向高效通行,有的通向拥堵等待。生成器创造了一个"花园",里面有所有的可能性;判别器则是一位园丁,修剪、选择、培育那些最美的枝条。
扩散模型本身就是一种关于可能性的哲学。它从一个随机的噪声开始——混沌、无序、潜能——然后逐步去噪,最终凝聚成一个确定但多样的分布。这像极了宇宙的诞生:从奇点的混沌,到星系的形成,到生命的演化,到智慧的涌现。
RAD-2将这个宇宙级的隐喻,压缩进了自动驾驶的决策循环中。
### 6.3 与未来对视:通往世界模型的道路
论文在"局限与未来工作"一节中坦承了BEV-Warp的局限性:
> "The efficiency of our BEV-Warp simulation environment is fundamentally rooted in the manipulation of BEV feature maps. While this design facilitates high-throughput policy iteration for systems that explicitly rely on BEV-centric perception, its applicability is constrained for architectures that utilize raw camera pixels or unified latent embeddings without explicit spatial-equivariant grid structures."
(我们BEV-Warp仿真环境的效率根本上源于对BEV特征图的操作。虽然这种设计为显式依赖BEV中心感知的系统促进了高吞吐量策略迭代,但其适用性对于使用原始摄像头像素或没有显式空间等变网格结构的统一潜在嵌入的架构来说是受限的。)
但论文也指出了未来的方向:
> "A promising extension of this work is the integration of our optimization pipeline with Generative World Models."
(这项工作的一个有前景的扩展是将我们的优化pipeline与生成式世界模型相结合。)
这意味着RAD-2的生成器-判别器框架、TC-GRPO算法、OGO优化策略——这些思想——可以被移植到更通用、更灵活的仿真环境中。也许在不远的未来,我们会看到自动驾驶系统在一个完全由神经网络生成的、像素级逼真的虚拟世界中训练,然后无缝迁移到真实世界。
---
## 🌟 尾声:选择的艺术
回到那个深夜的十字路口。雨水还在下,货车还在接近,行人还在犹豫。你握紧方向盘,深吸一口气,做出了选择。
RAD-2告诉我们:自动驾驶系统面对的不是"找到正确答案"的问题,而是"在所有可能中做出足够好的选择"的艺术。
生成器负责想象所有的可能性——就像一位诗人写下千万行诗句;判别器负责从中挑选——就像一位编辑选出最能打动人心的那一首。通过强化学习的循环反馈,这个系统不断进化:生成器越来越擅长创造有价值的候选,判别器越来越擅长识别真正优秀的选择。
这是一种谦逊而强大的智能。它不试图预测唯一的未来,而是承认未来的不确定性,然后在不确定中导航。它不追求完美的规划,而是追求在闭环交互中持续改进的能力。
正如论文的结论所言:
> "Extensive experiments demonstrate that RAD-2 consistently improves both safety and efficiency across diverse benchmarks, achieving substantial reductions in collision rates while maintaining reliable closed-loop navigation performance."
(大量实验表明,RAD-2在各种基准测试中持续提高安全性和效率,在保持可靠闭环导航性能的同时,显著降低了碰撞率。)
56%的碰撞率降低——这不是魔术,这是工程。这是将生成对抗的思想、强化学习的智慧、空间等变的洞察,巧妙地编织在一起的结果。
在这个AI快速发展的时代,RAD-2提醒我们:有时候,最强大的系统不是那些试图控制一切的系统,而是那些知道何时该生成、何时该判别、何时该冒险、何时该保守的系统。
因为在命运的分岔路口,真正的智慧不在于知道哪条路通向罗马——而在于拥有一双能够欣赏每条路风景的眼睛,和一颗敢于选择、也敢于承担的心。
---
## 📚 参考文献
1. Gao, H., Chen, S., Zhu, Y., Song, Y., Liu, W., Zhang, Q., & Wang, X. (2026). RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework. *arXiv preprint arXiv:2604.15308*.
2. Gao, H., et al. (2025). RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning. *arXiv preprint arXiv:2502.13144*.
3. Jiang, B., et al. (2023). VAD: Vectorized Scene Representation for Efficient Autonomous Driving. *ICCV*.
4. Jia, X., et al. (2023). DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous Driving. *ICCV*.
5. Chitta, K., et al. (2023). TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving. *IEEE TPAMI*.
6. Hu, A., et al. (2023). Planning-Oriented Autonomous Driving. *CVPR*.
7. Guo, Y., et al. (2024). GenAD: Generative End-to-End Autonomous Driving. *ECCV*.
8. Yang, Z., et al. (2024). ResAD: Rethinking the Training Strategy for End-to-End Autonomous Driving via Residual Learning. *arXiv preprint*.
9. Zheng, W., et al. (2024). Diffusion Models in Autonomous Driving: A Survey. *arXiv preprint*.
10. Goodfellow, I., et al. (2014). Generative Adversarial Nets. *NeurIPS*.
11. Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. *arXiv preprint*.
12. Wiener, N. (1948). Cybernetics: Or Control and Communication in the Animal and the Machine. *MIT Press*.
13. Borges, J. L. (1941). The Garden of Forking Paths. *El jardín de senderos que se bifurcan*.
14. Shalev-Shwartz, S., et al. (2016). Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving. *arXiv preprint*.
15. Codevilla, F., et al. (2018). End-to-end Driving via Conditional Imitation Learning. *ICRA*.
---
> **"在千万条道路中,我们选择那些让明天更安全、更美好的。这,就是RAD-2的故事。"**
#论文解读 #自动驾驶 #强化学习 #扩散模型 #生成器-判别器 #RAD-2 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!