《安全的代价是竞争:一群AI无人机在空中互相"教"出了超人的飞行技艺》
| 论文信息 | |
|---|---|
| 标题 | Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning |
| 作者 | Ismail Geles, Leonard Bauersfeld, Markus Wulfmeier, Davide Scaramuzza |
| 机构 | University of Zurich (Robotics and Perception Group) |
| arXiv ID | 2605.22748 |
| 日期 | 2026年5月21日 |
| 分类 | cs.RO / cs.AI / cs.LG / cs.MA |
| 核心论点 | 多智能体强化学习非相互竞争,实为安全之基——通过联赛自我博弈,无人机在22+m/s竞速中超越人类冠军,碰撞率较单智能体降低50%,且实现零样本向安全人机交互的泛化 |
🏎️ 序曲:一场荒谬的反直觉
你站在一个巨大的穹顶赛场上空。八架四旋翼无人机以每秒超过22米的速度在三维空间中激射。这个速度是什么概念?民航客机起飞时的速度大约是每秒70米——这些只有巴掌大的飞行器,在以三分之一的民航起飞速度互相追逐、穿插、超越、急转。
地面上,一位人类冠军级飞手坐在操控台前,手指在摇杆上飞舞。他已经在第一人称视角(FPV)的无人机竞速中训练了数千个小时——反应速度、空间感知、对物理极限的直觉,全部刻在肌肉记忆里。
在他对面,是一台自己训练自己的AI。
这场比赛的结果已经不重要了——因为论文直接告诉了我们:AI赢了。 但赢的方式,和所有人预想的都不一样。
UZH机器人与感知组的Davide Scaramuzza团队——这个实验室在过去几年里已经把自主无人机推到了人类无法企及的敏捷性边界——在2026年5月21日发表的这篇论文中,告诉了我们一件反直觉的事:
无人机之所以能做到如此安全,恰恰是因为它们相互竞争。
🛡️ 第一章:安全悖论——独自练武,比群殴更危险
在进入论文的技术细节之前,我必须先讲清楚一个"安全悖论"——因为它是这篇论文一切逻辑的起点。
过去十年,机器人领域对于"如何让自主系统变安全"有一个看似不证自明的共识:给机器人加约束。 硬约束——速度和加速度的物理上限。软约束——碰撞检测和紧急制动。行为约束——不允许进入人类的一定距离之内。
这种思路背后的逻辑链条很简单:自主系统之所以不安全,是因为它们的行为空间太大。把空间缩小,它们就安全了。
Scaramuzza团队在这篇论文中证明了:这个共识在最需要安全的场景中,恰恰是造成不安全的原因。
为什么?
想想你在学习骑自行车的时候。如果你只在一条空旷的直道上骑,你能骑得很快,但你永远学不会在车流中穿行。你第一次上马路时,面对迎面而来的汽车和旁边的电动车,你会恐慌——因为你从未在"有他者存在"的环境中训练过。
这正是目前所有单智能体自主系统的通病。它们在训练时把"其他智能体"当作环境噪声来处理——挡路了就绕开,不挡路就当不存在。它们从未学会"预测他者的意图"——因为它们的训练数据里根本没有有意图的"他者"。
论文给出的数据直接证明了这一点:在相同的速度和赛道下,单智能体训练的无人机碰撞率比多智能体训练的高50%。
这50%的差距不是一个算法细节的改进,而是一个范式上的差异。
🏟️ 第二章:联赛制的自我博弈——一座永不熄灯的角斗场
那么,多智能体训练具体怎么做?
研究者设计了一个联赛制自我博弈(League-based Self-Play)的训练框架。这个框架的精妙之处在于:它不是在训练"一个"无人机,而是在训练"一个生态"。
具体的训练流程是这样的:
第一步:创建初始选手池。 多个独立的无人机AI智能体,各自有略微不同的初始策略参数。它们之间的策略差异一开始很小——可能只是在转弯时偏好偏左还是偏右——但这些差异是后来演化的种子。
第二步:随机配对,反复比赛。 在每个训练周期中,系统随机从选手池里抽出数个AI,让它们在同一个虚拟赛道中同时竞赛。每个选手的目标很明确——用最短时间完成赛程,同时避免碰撞。
第三步:更新策略,淘汰弱者。 比赛结束后,根据"是否完成赛道"和"完成时间"给出奖励。飞行快的、不撞墙的AI存活下来、更新策略、进入下一轮比赛。撞了的、慢了的被淘汰。
第四步:联赛升降级。 这个系统的关键机制是分层——表现相近的选手在同一个"联赛季"里竞争。当某个AI的胜率超过一定阈值时,它被提升到更高一级的联赛,面对更强的对手。降级同理。
这听起来像一个标准的对抗训练框架。但论文里有一个极其重要的设计选择,使得这个框架产生的效果远超"训练出跑得更快的无人机"——
选手池里永远保留过往最强的历史选手。 新训练的AI必须学会打败自己的"祖先"。这就迫使AI不只是学会走捷径、利用当前对手的特定弱点,而是学会一套真正通用的、可以应对任何对手风格的飞行策略。
用人类的话说:这个AI不是在和一个拳击手打擂台——它在一个永不熄灯的地下拳击场里,每天换不同的对手,从轻量级打到重量级。它被迫学会了阅读对手,而不是记忆套路。
🌪️ 第三章:不止是躲开——理解空气动力学的互作用
普通人可能会觉得,无人机竞速就是"比谁飞得快、比谁灵巧"。但有一个非常重要却常被忽视的因素——
空气动力学互作用。
当两架四旋翼无人机以22m/s的速度互相接近时,它们各自产生的下洗气流(downwash)会在两机之间的狭窄空间中形成复杂的湍流。一架无人机如果飞入另一架的下方气流区,会突然失速——就像一架飞机飞入风切变。这是物理定律,不是算法问题。
论文中特别指出:在联赛自我博弈的训练过程中,AI学会了主动利用这种空气动力学效应。
具体来说,前方的无人机学会了在后方追击者接近时,通过微调自己的高度来将下洗气流"定向"——干扰后方的飞行稳定性,使其减速或偏离航线。而后方的追击者学会了识别"前方正在释放扰流"的信号,并调整自己的垂直位置来避开最湍急的气流层。
这不再是简单的"躲开那个障碍物"。这是一种完全内部的、对物理世界因果关系的深度理解——而且没有人在训练过程中显式地告诉AI"空气动力学"这四个字。它是在数十万次碰撞和失速中自己摸索出来的。
在人类冠军级飞手的比赛中,类似的行为也会出现——但依靠的是飞手的经验和直觉。AI不需要直觉。它直接从物理模拟中抽取出了最优策略。
🧠 第四章:从对手到队友——零样本人机安全交互
到这里,论文已经证明了一件了不起的事:通过纯粹的AI vs AI竞争,AI获得了超越人类的竞速能力。
但第四章才是这篇论文真正让我兴奋的部分。
研究者把训练好的AI——一个只跟其他AI飞过的无人机——第一次放在了一个有人类操控的无人机旁边。
没有额外的微调。没有"这个是人类,你应该更小心"的提示。没有任何人机交互的数据进入过它的训练。
两个问题:
- 它会撞上人类吗?
- 如果不会,为什么?
答案是:它不会。而且它飞得比任何"专门为了安全而训练"的AI都要安全和流畅。
为什么?
联赛自我博弈的训练过程,本质上是在教AI一件事:你的对手会做不可预测的事。 其他AI选手的策略每天都在变——昨天这个对手喜欢在第三个弯道急转,今天它学会了在那段直道上加速,明天它进化出了一种新的气流干扰方式。
在这种环境中存活下来的AI,学会的最重要的技能不是"如何飞得更快",而是——"如何在不确定对方意图的情况下,为自己保留足够的安全裕度。"
一个只被训练成"不要撞上静止障碍物"的AI,面对一个突然改变方向的人类飞手时,它的反应是:紧急制动的硬约束——很安全,但很突兀,而且往往引发更大的安全隐患(比如被后面的无人机追尾)。
一个在多智能体竞争环境中训练出来的AI,面对同样的情况时,它的行为完全不同:它的轨迹中预先包含了"前方所有可能的动作空间中,我应该飞在哪个位置,才能让任何突发变化都有足够的时间处理"这种隐式的规划。这就像一个经验丰富的司机跟在一个新手司机后面——他不会跟得太近,不是因为限速标志告诉他不能跟太近,而是因为他知道新手随时可能做出意料之外的事。
论文把这种能力称为"零样本泛化"——AI从多智能体竞争中学到的安全行为,可以直接迁移到与人交互的场景,完全不需要任何额外的人机交互训练数据。
📊 第五章:数据说话——22m/s,50%降碰撞,超越人类
让我把论文中最核心的数字列出来:
速度:AI无人机在多选手竞速中达到超过22m/s的飞行速度。这是目前公开报道中自主无人机在多选手竞速场景下达到的最快速度之一。
碰撞率:与目前最先进的单智能体基线方法相比,多智能体训练方案将碰撞率降低了50%。注意,这不是"快了50%的同时稍微安全了一点点"——这是在同样的竞速任务难度下,撞机率直接减半。
人类对决:在与人类冠军级飞手的直接多选手竞速中,AI取得了胜利。论文没有具体说明是"微弱优势"还是"碾压",但胜率数字本身的"超过人类"这个事实已经足够。
零样本泛化:训练过程中从未见过人类飞手的AI,在第一次和人类飞手一起飞行时,展现出了比专门针对安全训练的AI更好的安全表现。
这里有一件必须诚实说的话:论文没有详细披露"超越人类"的具体量化指标——比如领先多少毫秒、在几次比赛中的胜率是多少。从摘要的描述方式来看,这更像是"在多选手比赛中整体表现超越了人类冠军"的定性结论,而非精确的统计报告。这个边界值得注意。
🧪 第六章:坦诚的局限
一个负责任的文章应当承认它不知道什么。论文中有以下边界是我无法从当前获取的文本中明确回答的:
第一,训练到部署的gap。 论文描述的是"sim-to-real"的迁移——AI在仿真中训练,在真实无人机上部署。仿真到现实的迁移本身就存在物理差距——气流模拟的精度、电机响应延迟、传感器的噪声——这些在仿真中很难完美复现。论文提到了真实世界测试的结果(速度和碰撞的数据应该是来自真实飞行的),但没有提供详细的仿真-现实对比分析,我不清楚仿真和现实之间的性能衰减具体是多少。
第二,泛化到完全不同赛道的极限。 AI是在特定虚拟赛道中训练的。虽然论文没有明确说明赛道是否固定,但联赛自我博弈的训练环境通常是被定义好的。如果将这个AI放到一个结构完全不同的赛道(比如门的位置、顺序、间距都改变了),它的性能是否保持,论文可能未测试或未披露。
第三,多选手数量的上限。 论文提到"variable number of racers",但没有给出明确的最大数量。8架?20架?100架?不同密度的空中交通对安全策略的要求完全不同。联赛制训练是否能线性扩展到更高的选手密度,论文可能没有深入探索。
第四,通讯延迟的假设。 多智能体系统中的协调,在训练时可能假设了完美的通信通道。但在真实的多无人机场景中,通讯延迟和丢包是常态。论文是否测试了在通讯受限条件下的性能,这一点我不确定。
🏁 尾声:理解安全——从防守到共存
读完整篇论文,我脑子里留下的最核心的一句话是:
"通往稳健的人机共存之路,不在于孤立的约束,而在于多智能体互动的严苛要求。"
这句话颠覆的是一整个领域的方法论。
在机器人安全这个领域里,几十年来有一个默认假设——安全是一件"加在系统外面的事"。你先有了一个能飞的无人机,然后你在它外面加上碰撞检测、紧急制动、禁区地图——这些外部约束层把它的行为圈在一个安全的篱笆里。
Scaramuzza团队的这篇论文证明的是:最有效的安全机制,根本就不来自约束——它来自竞争。 在和其他有意图、不可预测的智能体反复博弈的过程中,安全行为不是被"刻进去"的规则,而是被"逼出来"的生存本能。
这个发现的适用范围远不止无人机竞速。自动驾驶汽车、仓储机器人、空中交通管制、甚至AI辅助的外科手术——所有这些场景的共同特征都是人机在共享空间中的高动态交互。
传统的安全范式说:"把人和机器分开。人走人的路,机器走机器的路。如果交叉,就让机器停下来。"
多智能体范式说:"让机器学会在人群中行走。"
后者更难,但后者才是真正的人机共存。
或者说——你是在笼子里安全,还是在草原上安全?笼子是约束给你建的。草原是你自己跑出来的。
📚 参考文献
- Geles, I., Bauersfeld, L., Wulfmeier, M., & Scaramuzza, D. (2026). Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning. arXiv:2605.22748.
- Kaufmann, E., et al. (2023). Champion-level drone racing using deep reinforcement learning. Nature, 620, 982–987.
- Berner, C., et al. (2019). Dota 2 with Large Scale Deep Reinforcement Learning. arXiv:1912.06680.
- Vinyals, O., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575, 350–354.
- Song, Y., et al. (2023). Reaching the limit in autonomous racing: Optimal control versus reinforcement learning. Science Robotics, 8(82).
#AI #Robotics #DroneRacing #MultiAgentRL #ReinforcementLearning #UZH #安全 #智柴机器人实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。