继AlphaGo之后,AI在世界人机大战中再一次获胜。
6月21日,在启元世界举办的国内首届《星际AI顶级职业选手挑战赛》中,启元“AI星际指挥官”以2:0的成绩战胜《星际争霸I/II》全国冠军黄慧明(TooDming)和黄金总决赛冠军、最强人族选手李培楠(Time)。
本次比赛是全国首次现场直播星际AI与人类顶级职业选手的对战。
与围棋相比,《星际争霸》属于不完全信息博弈,战争迷雾对AI的战略规划、布局、决策提出了更高的要求。而且在决策空间上,围棋只有361种,星际2大约有1026。因此,更具挑战性的《星际争霸》成为了AI与人类较量的下一个竞技场。
“星际指挥官”是什么?
据了解,“星际指挥官”是由启元世界(北京)信息技术服务有限公司(以下简称:启元世界)围绕智能体训练云开展技术、研发型产品。
公开资料显示,启元世界成立于2017年,是一家认知决策智能技术研发公司,基于深度学习、强化学习、超大规模并行计算等技术,搭建了深度强化学习算法平台,以在线游戏为实验平台,快速验证智能体算法,致力于打造决策智能、构建平行世界、激发人类潜能。
2018年12月,启元世界完成知名投资机构Pre-A轮融资。目前,启元“智能体训练云平台”已在全国数十家商业组织和机构进行合作,其覆盖了数字娱乐、公共科技、机器人等行业。
启元世界创始人袁泉向钛媒体表示,《星际争霸》无论从战斗、战役、战略经济等层面,都蕴含了人类感知、认知决策的训练环境,所以在公司成立的第一天他就确定以《星际争霸》为研究环境,并且坚信它是孕育下一代新人工智能体非常好的训练平台。
事实上,在此次比赛之前,自2018年在第38届ACM全球总决赛亮相并发布AI人机协作挑战赛以来,“星际指挥官”不断收获优异成绩:
2019年9月达到白金水平,3:0击败人类黄金级选手;2019年12月达到钻石级水平,并在人工智能顶级峰会NeurlPS上现场展示。
究竟“星际指挥官”与围棋有何不同,启元世界CTO龙海涛从博弈和决策空间的角度作出了解释,“从博弈的角度来看,围棋是一个完全信息的博弈,棋子之中黑子、白子都可以看到;而《星际争霸》则属于非完全信息博弈,像猜拳一样,人类选手需要不停地猜测对方在干什么,下一步动作是什么。”
龙海涛介绍,从决策空间来看,围棋是回合制,在19乘19的格子之中,每次决策在361个点进行选择动作;《星际争霸》则是有决策主体、决策目标,每分钟的决策次数在300-400次频率,整个空间加起来有10的26次方,这是每次AI作决策可能性的来源,而且要做两千、三千次决策,才有可能战胜顶级的人类选手,这是对AI训练的巨大考验。
启元世界也在从工程和算法两个层面各进行了深层次的优化,通过乘数效应的叠加最终实现了看似不可能的“奇迹”。
七步打造智能体训练云
袁泉透露,《星际争霸》仅仅是智能体训练云的一块“试验田”,启元世界的目标是通过智能体训练云平台帮助各行各业训练出自己的智能体,助力产业升级。
智能体训练云平台会提供方便的编程接口,供智能体开发人员调用高效的算法库、网络模型库及训练方法,快速开发构建自己的智能体。同时,平台还会根据训练任务进行弹性算力调度,匹配智能体的推演和训练速度,实现高效率的超大规模并行训练。
袁泉讲述了七步打造智能体训练云路径:
第一步,环境配置。构建智能体训练环境,无论是《星际争霸》、数字孪生环境、仿真环境等,让AI智能体在环境中不断探索、交互。
第二步,智能体设计。平台将提供编程接口,供开发人员调用底层数十个算法库、网络模型库以及智能体的训练方法,快速开发构建自己的智能体。
第三步,算力调度。主要是针对大规模协作的时候,比如某一个特定的任务到底需要分配多少CPU、GPU、大内存,甚至是万兆通信网络这些资源,能够更好地适应任务训练自己的智能体。
第四步,自我对抗学习。将配置好的智能体进行对抗学习和演练,就像“星际指挥官”一样,在对战场景下不断试错、学习和自我迭代,不断调整最优对策。
第五步,对抗样本。支持数百个实体单元的大规模并行对抗训练,可解决10的26次方复杂动作空间决策问题,达到甚至超过人类高手水平。
第六步,智能体模型。随着训练时间的增长包括平台提供稳定训练的特性,能够帮助大家发掘到最优的智能体策略。
第七步,评估部署。将最终训练好的智能体接入仿真推演环境,让智能体背后的AI系统进行各种环境应对策略决策。
按照袁泉的规划,启元世界将致力于把智能体带入每个行业、每个家庭、每个人,提升产业效能和生活体验,为公共科技、数字娱乐、电力能源、交通物流等行业提供基于平台产品的人工智能解决方案。(本文首发钛媒体,作者/郭虹妘,编辑/蔡鹏程)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
钛媒体的文章还是不错的