文 | 学术头条
来自苏黎世大学机器人与感知研究组(Robotics and Perception Group)的 Elia Kaufmann 博士团队及其英特尔团队联合设计了一种自动驾驶系统——Swift,该系统驾驶无人机的能力可在一对一冠军赛中战胜人类对手。
这一重磅研究成果,刚刚以封面文章的形式发表在了最新一期的 Nature 杂志上。
在一篇同期发表在 Nature 上的新闻与观点文章中,荷兰代尔夫特理工大学的研究院 Guido de Croon 教授写道,“Kaufmann 等人的研究是机器人学家克服现实差距的一个很好的案例。尽管 Swift 使用 AI 学习技术和传统工程算法的巧妙组合进行训练,但该系统应该在一个更真实多变的环境中进一步开发,从而充分释放这项技术的潜力。”
尽管如此,研究团队表示,该研究标志着移动机器人学和机器智能的一个里程碑,或可启发在其他物理系统中部署基于混合学习的解决方案,如自动驾驶的地面车辆、飞行器和个人机器人。
融合 AI 与工程算法的智能训练
当前,基于深度强化学习的人工智能(AI)系统在雅达利(Atari)游戏、国际象棋、《星际争霸》和 GT 赛车(Gran Turismo)等游戏中已经超越了人类冠军。然而,这些成就全部发生在虚拟环境中,而非真实世界中。
无人机竞速对经验飞行员和 AI 都具挑战,但 AI 而言,更具挑战性。因为在虚拟环境中,资源几乎是无限的,而转向现实世界意味着必须使用有限的资源。对于无人机来说,情况尤为如此,因为取代人类飞行员的传感器和计算设备必须被搭载到空中。
另外,现实世界比虚拟世界更加不可预测。虽然模拟的比赛无人机可以按照预先编程的轨迹完美地行驶,但对一个无人机发出的单一指令可能产生多种效果,影响难以预测,对于通过 AI 训练的无人机尤为复杂。
传统的端到端学习方法难以将虚拟环境的映射转移到现实世界,虚拟和现实两者之间存在着现实差距,而现实差距构成了机器人领域中主要的挑战之一。
在该研究中,Swift 系统通过将 AI 学习技术与传统工程算法融合,实现了智能训练。首先,该系统通过人工神经网络处理无人机从相机中获取的图像,从而精准地检测到门的角落。然后,利用双目视觉软件用来计算无人机的速度。
Swift 系统的创新之处在于另一个人工神经网络,将无人机的状态映射到调整推力和旋转速率的命令。利用强化学习,通过模拟中的试错过程来优化从环境中获得的奖励。在这个算法中,该系统采用了强化学习,而非端到端学习,从而可以通过抽象概念来弥合现实与模拟之间的差距。
由于状态编码的抽象层次高于原始图像,强化学习模拟器不再需要复杂的视觉环境。这一优化减少了模拟系统与真实系统之间的差异,提升了模拟速度,使得系统能够在大约 50 分钟内完成学习。
据论文描述,Swift 由两个关键模块组成:observation policy 和 control policy。其中,observation policy 由一个视觉惯性估计器和一个门检测器组成,可以将高维视觉和惯性信息转化为任务特定的低维编码;control policy 由一个两层感知器表示,可以接受低维编码,并将其转化为无人机指令。
超越人类飞行员的速度和性能
此次比赛的赛道是由一位外部世界级 FPV(第一人称主视角)飞行员设计的。赛道包括七个正方形的门,排列在一个 30×30×8 米的空间内,组成了一圈长达 75 米的赛道。
此外,该赛道具有特色鲜明且具有挑战性的机动动作,包括 Split-S 等。即使发生碰撞,只要飞行器能够继续飞行,飞行员依旧可以继续比赛。如果发生碰撞且两架无人机均无法完成赛道,距离更远的无人机获胜。
Swift 与 Alex Vanover(2019 年无人机竞赛联盟世界冠军)、Thomas Bitmatta(2019 年 MultiGP 冠军)和 Marvin Schaepper(3X Swiss 冠军)等人进行了多场比赛。
其中,Swift 在与 A. Vanover 的 9 场比赛中赢得了 5 场,在与 T. Bitmatta 的 7 场比赛中赢得了 4 场,在与 M. Schaepper 的 9 场比赛中赢得了 6 场。
另外,Swift 共有 10 次失利,其中 40% 因与对手碰撞,40% 因与门碰撞,20% 因比人类飞行员飞行较慢。
总体而言,Swift 在与每位人类飞行员的大多数比赛中取得了胜利。另外,Swift 还创下了最快的比赛时间记录,比人类飞行员 A. Vanover 的最佳成绩快了半秒钟。
从数据分析中可以看出,Swift 在整体上比所有人类飞行员都要快,尤其在起飞和紧急转弯等关键部分表现更为出色。Swift 的起飞反应时间更短,平均比人类飞行员提前 120 毫秒。而且,Swift 的加速度更大,在第一个门处达到更高的速度。
此外,Swift 在急转弯时表现出更紧密的机动动作,这可能是因为它在较长时间尺度上优化了轨迹。与此相反,人类飞行员更倾向于在较短时间尺度内规划动作,最多考虑到未来一个门的位置。
此外,Swift 在整体赛道上实现了最高的平均速度,找到了最短的比赛线路,并成功地将飞行器保持在极限附近飞行。在时间试验中,Swift 与人类冠军进行比较,自主无人机表现出更加一致的圈速,平均值和方差都较低,而人类飞行员的表现则更加因个体情况而异,平均值和方差较高。
综合分析表明,自主无人机 Swift 在比赛中展现出了出色的性能,不仅在速度上表现优越,还在飞行策略上具备独特的特点,使其能够在整个比赛中保持高水平的表现。
不只是无人机竞速
这项研究探索了基于来自物理环境的嘈杂和不完整传感输入的自主无人机竞速,展示了一个自主物理系统在竞速中取得了冠军级的表现,有时甚至可以超越人类世界冠军,突显了机器人在受欢迎体育项目中达到世界冠军级表现的重要意义,为机器人技术和智能取得了重要里程碑。
然而,与人类飞行员相比,研究中的系统并未经过撞击后的恢复训练。这限制了系统在撞击后继续飞行的能力,而人类飞行员可以在硬件损坏的情况下继续竞赛。
另外,与人类飞行员相比,Swift 系统对环境变化的适应能力较弱,使用的相机刷新率较低;尽管该方法在自主无人机竞速中表现优异,但其在其他现实系统和环境中的泛化能力尚未充分探究。
显然,Kaufmann 及其团队的成就不仅仅局限于无人机竞速领域,这项技术或许可能会在军事应用中找到用武之地。而且,他们的技术可使无人机更平稳、更快速、更长程,有助于机器人在驾驶、清洁、检查等领域更有效地利用有限的资源。
但要实现这些目标,研究团队依然需要解决诸多挑战。正如 Croon 在评论文章中所说,“为了在任何竞赛环境中都能打败人类飞行员,该系统必须能应对外部干扰,如风,光照条件变化,定义不太清晰的各种门,其他竞速无人机和许多其他因素。”
论文链接:
- https://www.nature.com/articles/s41586-023-06419-4
- https://www.nature.com/articles/d41586-023-02506-8
根据《网络安全法》实名制要求,请绑定手机号后发表评论