文 | 学术头条
人工智能(AI),可以同时操控数百机器人“协同作战”了。
来自康斯坦茨大学和国际理论物理中心的研究团队开发了一种基于 AI 的控制策略,成功让 200 个微型机器人变身为“AI 智能体”,独立作出决策,在团队的协作下实现复杂的集体行为。
在实验中,微型机器人协同完成“大件物品的运输”任务的成功率超过了 90%,并在 3000 次动作内精确达成目标。
研究团队表示,这种控制策略可以训练成群的微型机器人完成集体操纵或运输物体等任务,如移动微型机械、可编程给药胶囊和其他先进的片上实验室应用的复杂和自动化组装。
在演示模拟中,经过训练的微型机器人群成功在无法穿越的固定障碍物面前旋转以及把一根杆运输到特定位置,甚至学会了利用结构化环境,将障碍物作为铰链来更高效地运输杆。
另外,微机器人群还能完成更复杂的集体行为,如同时旋转两根和三根杆。在分布式控制框架的支持下,独立运动的微型机器人能够充分发挥各自的优势,相互协作,实现对多个物体的高效操控。
在技术实现上,研究团队采用了多智能体强化学习(MARL)算法,并结合了“反事实奖励”(CR)机制,为每个微型机器人设计了个性化的奖励系统,从而引导其朝着集体目标努力。
这种方法让微型机器人在协作中学会如何优化自己的行为,使得整个集群的表现更加高效。
研究还发现,经过 MARL 训练的微型机器人能够有效克服热噪声和环境噪声,即使在一些蜂群成员出现故障时也能保持正常工作,还具有较强的鲁棒性。
在实验中,当 20% 的机器人出现故障时,集群的任务完成效率几乎不受影响;甚至当故障比例达到 50% 时,集群的效率仍能维持 30% 的初始水平。
相关研究论文以“Counterfactual rewards promote collective transport using individually controlled swarm microrobots”为题,已发表在科学期刊 Science Robotics 上。
值得一提的是,据个人主页显示,该论文的通讯作者之一顾红日(Hongri Gu)即将履新——从 2025 年 1 月起,加入香港科技大学,担任助理教授。
顾红日,本科毕业于浙江大学机电工程专业,在康斯坦茨大学物理系从事科研工作期间,他与该论文的另一位通讯作者 Clemens Bechinger 教授携手探究了活性物质集体状态应用,将强化学习融入到微型机器人集群研究,并研究了表面间的磁摩擦,这也是这项研究成功的关键。
成功率超 90%,半数故障依然「能打」
受自然界群体行为启发,科学家们一直在探索如何让机器人集群协同完成复杂任务。无论是空中的微型飞行器、陆地上的机动立方体机器人,还是水中的机器鱼群,都表现出了群体协作的巨大潜力。
然而,微型机器人集群研究仍然面临诸多挑战。
在微观尺度下,热噪声、布朗运动等因素干扰了机器人的轨迹,同时激光等驱动方式在控制多个机器人时,由于彼此之间的强耦合作用,也进一步增加了精确控制单个微型机器人的复杂性。随着尺寸不断缩小,将传感器、微控制器、微执行器等集成到微型机器人中变得愈加困难,这也限制了其独立完成复杂任务的能力。另外,群体机器人控制通常依赖电、磁、声等全局场来实现集体行为,但通常比较简单且效率低下,难以满足复杂任务的需求。
为了克服上述挑战,研究团队结合“多智能体强化学习”与“反事实奖励”机制,将控制的复杂问题转化为如何设计合适的奖励函数,从而让每个机器人在协作中优化行为。
然而,简单地给所有智能体赋予相同的团队奖励,容易引发 “懒惰智能体问题”。因此,研究团队在学习过程中引入了反事实奖励机制,让机器人根据个体贡献自动优化行为,而无需依赖复杂的环境模型,简化了集体任务的控制过程。
研究团队首先聚焦于一个复杂任务——大型杆状物体的旋转。由于杆体尺寸较大且流体阻力显著,单个微型机器人无法对其产生有效作用,必须依靠集群的协同力量才能完成任务。
为了训练机器人完成这一任务,团队使用了由 30 到 35 个微型机器人组成的集群,并通过激光驱动控制它们围绕杆进行操作。在训练初期,由于神经网络的初始权重随机,机器人行为十分混乱,几乎没有规律可言。
然而,随着训练的进行,部分机器人偶然与杆发生碰撞,产生微小的旋转,并因此获得奖励。这一反馈促使机器人逐渐意识到与杆互动并推动杆是获取奖励的有效方式。
经过约 20 个回合的训练,机器人集群开始协调一致地从杆的两端施加推力,推动杆顺时针旋转。随着训练的深入,杆的旋转速度逐渐加快并趋于稳定,机器人之间的协作效率显著提高,集群的整体表现也逐步优化。
接下来,研究团队将任务难度提升,要求机器人将杆运输到指定位置,并朝着预定方向进行精准控制。为了精确判断机器人对任务的贡献,研究人员采用了反事实奖励机制,将杆划分为 60 个小片段,并通过这些片段间的成对距离变化来作为关键性能指标。
实验结果显示,微型机器人集群在不到 3000 次动作的训练中,成功将杆推送到目标区域,成功率高达 90% 以上。在整个任务过程中,机器人集群在任务分解、策略选择以及协同操作方面显示出强大的能力。
为了进一步验证微型机器人集群的可靠性与适应性,研究团队进行了鲁棒性和可扩展性测试。
在鲁棒性测试中,研究团队通过引入故障情境,故意使部分机器人出现故障。实验结果表明,即使在 20% 至 50% 的机器人故障情况下,集群依然能够保持较高的任务完成效率,当故障比例超过 50% 时,集群的性能略有下降,但仍能维持约 30 % 的水平。
在可扩展性测试中,研究团队通过改变机器人数量,考察不同规模集群的性能表现。结果发现,当集群规模接近训练时的规模(约 35 个机器人)时,系统表现更佳;而当机器人数量减少至 20 个时,集群的性能仍能保持稳定。令人惊讶的是,即使只有 9 个机器人,集群的性能也能保持 50% 左右。然而,当机器人数量超过训练规模的两倍时,集群的性能有所下降。这是因为机器人之间的相互作用变得更加复杂,导致在有限空间内的干扰增多,影响了整体效率。
不足与展望
这项研究不仅在微型机器人集群控制领域取得了显著的进展,还展示了群体智能在微观尺度的巨大潜力,但仍然面临一些挑战。
首先,现有的微型机器人集群控制系统依赖激光驱动,这限制了其在深层生物体内(如人体内的靶向药物输送)等复杂环境中的应用。激光的穿透深度有限,且依赖特定推进机制,使得这些微型机器人在某些应用场景中面临技术瓶颈。
此外,微型机器人仍面临诸多硬件相关的问题,包括计算、传感器和执行资源的限制,以及微型执行器在与环境和其他机器人互动时的精度问题。这些因素都限制了微型机器人系统的进一步应用。
尽管如此,研究团队表示,这些微型机器人有望被用于运输生物样本、病毒检测、个性化药物释放等任务,甚至可能在组织工程和定制制造等领域得到应用。
未来,随着微型机器人技术的不断发展,我们是否可以在人体内部,甚至是在极端环境下,实现这些微型机器人集群的智能应用呢?
这一边界,或将在下一次技术突破中被重新定义。
根据《网络安全法》实名制要求,请绑定手机号后发表评论