无人机首次成功在一对一冠军赛中战胜人类对手,而无人机背后是一个名为Swift的人工智能系统,《Nature》期刊的封面上的也在当期封面刊登了相关论文。
AI如何成为游戏高手?
国际象棋、星际争霸(StarCraft)、Dota2和GT赛车这些游戏,如果你与电脑对战,那些电脑虚拟玩家是如何来完成一系列操作的?
或许你没有听说过深度强化学习(Reinforcement Learning,RL)系统,但你一定听说过或接触过或许你没有听说过深度强化学习(Reinforcement Learning,RL)系统,因为这些电脑虚拟玩家就是运用了这一技术。
在模拟和棋盘游戏环境中,AI可以轻松胜过人类,但在物理世界的竞赛,AI的决策和操作则面临诸多困难。
第一人称视角 (FPV) 无人机竞赛是专业选手在 3D 赛道上驾驶高速飞行的无人机,驾驶员可以通过机载摄像头传输的画面从无人机的角度观察环境,从而完成加减速、转弯等操作,让无人机穿越赛道中的障碍。
Swift (蓝色)和人类(红色)交锋,七个方形门,每圈必须依次通过,图片来源:参考文献
自动驾驶无人机要达到职业飞行员的水准很难,因为机器人需要在其物理限制下飞行,同时只能根据机载传感器估算其速度和方位。
传统的无人机竞速方法包括轨迹规划和模型预测控制(model predictive control,MPC),但这种方法只能在理想条件下实施,一旦受到任何干扰,整个系统就会崩溃。
图片来源:piqsels
而Swift系统克服了这个困难。Swift系统由两个关键模块组成:
一是感知系统,将高维视觉(即空间立体视觉)和惯性信息转换为低维编码;
二是控制系统,摄取感知系统产生的低维编码并产生控制命令。将这两个系统结合起来,便可以基于物理环境的细微变化进行实时决策调整。
当然,先进的感知系统和控制系统还不足以对抗人类冠军驾驶员。
Swift系统比人类强在哪儿?
Swift系统比人类驾驶员具有一定的结构优势。
Swift系统,图片来源:参考文献
首先,它能利用来自机载惯性测量单元的惯性数据。
这类似于人类的前庭系统,人类驾驶员在比赛中无法使用该系统,因为他们实际上并不在飞机上,并且感觉不到作用在飞机上的加速度。
其次,Swift系统受益于较低的感觉运动延迟(Swift为40毫秒,而人类专家的平均延迟为220毫秒)。
FPV比赛使用的是四轴飞行器,它是有史以来最敏捷的机器之一。在比赛中,飞行器会施加超过自身重量五倍或更多的力量,即使在有限的空间内,速度也能超过100公里/小时,加速度是重力的几倍。因此,较低的延迟有助于让飞行器的行动更灵活。
在实际比赛流程中,人类飞行员在赛道上进行了为期一周的练习。之后,由Swift和人类控制的无人机需要在场地赛道中以正确的顺序穿过每一道门。Swift在与三位人类冠军正面交锋的比赛中均获胜,甚至创造了最快完成比赛的记录。
图片来源:piqsels
在AI控制的无人机战胜人类之后,自主移动机器人仍然有很多可以提升的方向。
例如人类控制无人机时,即使发生了碰撞,只要硬件仍然正常工作,人类仍然可以控制无人机继续飞行并完成这段赛道,但Swift没有接受过碰撞后恢复的训练。
即便存在诸多限制,但该研究成果已经成为移动机器人技术和机器智能的一个里程碑,它将助力自动驾驶的地面车辆、飞行器和个人机器人的快速发展。
参考文献
原论文:Kaufmann, E., Bauersfeld, L., Loquercio, A. et al. Champion-level drone racing using deep reinforcement learning. Nature 620, 982–987 (2023). https://doi.org/10.1038/s41586-023-06419-4
策划制作
来源丨科协之声
作者丨SamKakeru 科普作者
责编丨杨雅萍 金禹奋