如何从3000万到1亿个图中快速找到一颗脉冲星?
或许只能交给AI了。
在刚刚过去的2022世界人工智能大会(WAIC)上,一个消息不胫而走——在过去一年时间里,复旦大学池明旻教授科研团队发现了22颗脉冲星。除了助力中国探星之路再进一步,这件事的意义还在于,该项目将人工智能与天文学跨领域融合,在脉冲星模型算法方面取得了突出成果。
发现脉冲星,难在哪儿?
脉冲星被认为是浩瀚宇宙中的“灯塔”,由于其规律性的脉冲信号可作为宇宙导航器而得名,是宇宙中磁场最强的天体,具有非常高的天文学研究价值。自1967年脉冲星被英国射电天文学家发现以来,人类一直没有停止对脉冲星的探索,并且搜寻脉冲星的科研方法也在不断升级。
2016年,中国位于中国贵州黔南的500米口径球面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,FAST)投入试运行,作为全球范围内最大的射电望远镜,FAST对于脉冲星的研究发现具有关键作用。
从搜寻脉冲星的整个链路看来,FAST主要解决了脉冲星的信号收集问题,后续在通过专业的天文软件对信号做图形转化的预处理上需要耗费庞大的计算资源。预处理完成后,天文科研工作者需要从预处理生成的上亿张图片中完成脉冲星的特征比对,从而找到潜在的脉冲星。
据池明旻教授介绍,因为FAST是公共的科技基础设施,其带领的天文科研团队每周只能申请到500TB的FAST数据给到脉冲星搜索项目,但这500TB的数据经过预处理之后会产生3000-1亿张图片,以往从这近1亿张图片中寻找脉冲星,可能需要1-2个科研工作者花上一年时间完成,是个非常大的工程。
数据量大只是其一,更难的一点在于,脉冲星的现有样本量较少。自FAST启用以来,中国发现的脉冲星一共有600多颗,池明旻团队用于训练AI模型的样本则更少,也只有100颗左右。正是囿于这一局限,国家天文台此前已有的脉冲星AI筛选模型准确率有很大提升空间。
两大难点,让发现脉冲星这件看起来非常酷的事情显得并不那么性感。
池明旻教授坦言,项目刚开始也有超算平台可以选择,但是算力平台往往只提供算力,在技术上鲜有支持。“超算平台的使用需要投入非常多的技术人员,但是在校学生都不太擅长。”她描述当时的情况。
转机发生在2021年前后,彼时腾讯优图从基础研究到产业落地的战略正在全面铺开,亟需寻找产业场景。了解到池明旻的关于脉冲星的科研项目后,腾讯优图与其取得了联系。后来,双方于极短的时间内在脉冲星项目上一拍即合,并在2021年7月的WAIC上宣布了“探星计划”。
“腾讯团队技术人员投入非常大,预处理算法基本不用我们做,都交给他们来部署。后面关于脉冲星的AI模型双方共同优化。”池明旻表示。
最终,在脉冲星AI模型的优化中,双方取得了多模态&半监督AI的解决方案创新。这一越来越精准的脉冲星模型算法,将在不久的将来向对外开放。
为什么是多模态&半监督
数据显示,多模态+半监督学习的AI解决方案,相比国家天文台原有的AI筛选模型具有更高的召回率,且误报率下降98%。
那么,脉冲星为什么要多模态与半监督学习相结合的AI解决方案才有效果?
池明旻表示,FAST收集回来的太空信号是一个时间周期信号,这些信号转化成图像后,像一个3D物体,从不同维度去看会获得不一样的信息。判断是否是脉冲星的维度有很多,比如色散、向位等等。“基于多的信息的输入,综合去评价这个信号到底是不是脉冲星,在这种情况下肯定会比常规基于信号的直接分析,效果会比较好一些。” 她解释称。而AI算法要做的就是,要将这些不同维度的数据同脉冲星的特征数据做比对,找出潜在脉冲星。
在半监督方面, 正如上文提到科研工作者可能每1亿张图片才能找出1颗脉冲星,这1亿张图片如果人工去做标注非常不现实,而且对样本学习量的要求比较大。而半监督学习是一种使用大量未标记数据,以及同时使用标记数据,来进行计算的小样本研究的常用手段。
“我们所谓的小样本就是数据量比较小的情况下做数据增强,比如通过仿真做噪声模拟,这样原本的几百张样本可能就会变成几千张。”池明旻解释。
总体来讲,在腾讯优图实验室总监汪铖杰看来,能够辅助池明旻教授团队进行脉冲星的发现研究其实与腾讯优图一直以来在数据增强、小样本研究的积累分不开。例如在数据增强方面,腾讯优图也在做相关的内容研究项目,与我们当前已经使用到现实生活中的画质优化本质上是同一个逻辑,就是把自然界拍好的噪音水平加到高画质图像中来构建高清和降质之间的关联学习。
腾讯优图此前工业AI质检的项目中就做了很多小样本研究的积累。“一些生产精度已经很高的精密制造企业,良品率已经99%,一个缺陷品要等很久才有,有些缺陷品出现的概率可能是万分之一,这个时候我们要么拿到100个有缺陷的样品,要等这个生产线生产100万个零件,而如果说我们要1万个有缺陷样本,可能要等生产线生产100万个零件,时间上已经不现实。”汪铖杰补充。
会上,腾讯云副总裁、腾讯优图实验室总经理吴运声也表示,腾讯的工业AI基础技术集中在工业成像、基础算法、高效学习以及仿真生成四个方面,通过这四部分能力已打造超过10个细分领域外观检测的解决方案。未来这些基础技术也将有望像更多场景落地应用。
在世界人工智能大会上,国家天文台-腾讯天体AI探星计划获得世界人工智能大会SAIL之星奖(Super AI Leader)。更进一步,腾讯与国家天文台也在以“AI+云”开启M31仙女座星系中脉冲星类致密天体的最深度完整探测。
(本文首发钛媒体APP 作者 | 秦聪慧)
根据《网络安全法》实名制要求,请绑定手机号后发表评论