文 | 宁宇
这个春节,新冠肺炎的疫情让很多产业按下了暂停键;然而在信息技术领域,却出现了不少新的应用场景,促成了IT技术的发展。这当中有显性化的,主要是面向个人客户的各种移动互联网应用;也有不易被人察觉的,比如今天说的大数据产业。
疫情之前的大数据
大数据在中国的兴起不是最近的事儿。记得最初是说某位美国总统的当选,大数据功不可没,后来某位人士写了本《大数据》受到中国政商的推崇。一时间,以互联网公司为首的高新科技企业对大数据青睐有加,最积极的大数据支持者阿里巴巴公司创立了Datatechnology(简称DT)这个词,马云曾公开表示:"人类正从IT时代走向DT时代。"
可以看到,在过去几年中,无论是企业政府还是产业投资,虽然诉求不同,但行动上都在积极推动大数据发展。众人拾柴火焰高,大数据成为瞩目的产业热点。
那么大数据是不是一飞冲天了呢?好像还没有。
大数据的投入非常大,需要购买大量的硬件基础设施,需要专业化的工具软件以及掌握这些高新技术的专业人士,需要具备海量数据的获取能力,需要熟悉算法有能力进行模型设计和优化的数学人才等等。无论是系统建设成本还是运营成本,都需要巨大的资金投入。
那么大数据的产出呢?能直接变现的应用中,看得到的是客户画像加上精准营销,看不到的是宏观分析和决策支持,经济效益的增量不大;衍生出来的人工智能、区块链等,也是雷声大雨点小不赚钱的生意。
尤其最近两年,信息安全和个人隐私保护的问题越来越引起关注,在一定程度上影响了大数据产业的发展速度。一些从事大数据产业的企业被调查,又给本来就不大赚钱的产业增加了不少风险因素,看衰大数据的声音此起彼伏。
从技术角度看,在疫情之前大数据产业的基本形态是这样的:
1、互联网企业对大数据最为热衷,一方面是因为资本市场关注大数据,另一方面也确实利用大数据分析,改善自身产品体验,辅助开展营销和服务。
2、传统企业的大数据处于"自产自销"状态,自建的大数据系统主要利用自己IT系统产生的数据进行分析,决策支持为主,支撑业务为辅。
3、政府部门积极推进大数据产业发展,同时也在提升自身的大数据能力建设。
4、出现了专业从事大数据产业的创新企业。这些企业通过多种渠道获取数据,通过为企业提供数据和分析服务获利,目标客户主要是对大数据的使用有需求,但没有建设和运营大数据系统能力的中小企业。
5、众多的大数据系统各自独立,缺乏数据的交换共享机制和技术标准,孤岛模式下大数据的威力发挥不够充分。
6、物联网让物与物的连接实现数字化,越来越多的实体企业希望通过发展大数据来提升企业的竞争力,实现数字化转型。
总的来说,在疫情来临之前,相对于刚刚起步的企业大数据,中国在个人大数据领域已经发展了一段时间,在数据的获取和积累方面有了非常不错的基础;但在数据共享以及大数据的应用方面发展还不充分。
大数据的第一跳
随着疫情的出现和发展,数据和分析的价值引起广泛关注。
前段时间一个流行病学的名词火了,叫Basic reproduction number(基本传染数),是指在没有外力介入,同时所有人都没有免疫力的情况下,一个感染到某种传染病的人,会把疾病传染给其他多少个人的平均数,通常被写成为R0。
对于一种新的传染病,在疫情刚刚开始的时候,一些专业人士依据流行病学原理,根据病人数量、传染情况等信息设计数学模型,再基于人口数量和流动性等要素推测可能的感染人数以及病情传染趋势等,为决策提供数据支撑。但样本不足的情况下,难以判断哪个模型和结论更符合实际情况,只能寄希望专家基于经验的判断是准确的。
虽然不能对病情的扩散程度和感染者数量进行准确判断,但面对疫情必须当机立断,做出决策。可以想象,当时决策者们是多么希望拥有完整而真实的数据,以及对未来发展的准确预测啊,可惜他们只能在信息不完备的情况下设定防控手段的等级。
这里要多说一句,虽然现在我们有了非常多的实际数据,但武汉等地封城之后,实际上传播已经受到了外力影响,对建模和预测的参考价值降低了,所以不能拿国内的情况简单地套用到海外,和有没有瞒报没关系。
除了外部可见的信息和报道,影响决策的还有很多数据和分析,运营商就在其中扮演重要的角色。
运营商都拥有自己的大数据平台以及数据分析系统,而且中国的移动电话普及率超高,还全面推行了实名制管理,因此从运营商那里可以获取到本地与湖北的漫游情况,多少用户来自于湖北,自己的客户有多少人去过湖北,这些人分布在哪个地市哪个县,这些都是疫情防控需要的基本信息。
在1月底的时候,网络上流传出一些运营商提供给政府决策部门的汇报材料。随着信息安全管理的强化,这些内容不再为外人所知。随着疫情的发展、对新冠病毒认知程度的提升,相关部门不断需要运营商提供新的数据和分析报告,据我了解,甚至在春节期间,运营商负责数据分析的人员都没有休息,一直在加班加点提供数据支撑。
运营商对大数据的使用场景很多都是决策支持,与这次疫情前期对数据的需求场景非常相似,虽然我们无法了解到决策的具体场景和案例,但运营商为全国和省甚至地市级单位提供的宏观数据支持,为实际情况的判断以及相关措施的出台做出了贡献。
大数据的第二跳
随着封城、隔离等强制性举措的出台,中国应对疫情的手段已经清晰:将重灾区湖北与全国其他地区进行隔离,然后以省甚至以地市为单位,各自采取措施切断传播途径,对确诊患者、疑似病例以及密切接触者进行不同程度的隔离,控制疫情的传播。
这个时候,大数据不再主要关注宏观决策,更多的是对个体用户行为的信息查询和分析。这种方式以往大数据分析用得并不多,最多就是做一些客户的精准营销推送,或者针对性地改善客户体验,覆盖率非常有限。而这一次疫情防治不再考虑更多的成本因素,针对个体的数据分析成为疫情中期的主流场景。
从公开报道中可以看到,每发现一例新的确诊病例,都要像破案一样,最终溯源到这个患者是如何被感染的,从被感染到入院期间的行动轨迹如何;然后根据这些信息分析和寻找哪些人可能成为密切接触者,再对密切接触者进行隔离。这些信息的获取一部分是问询查证,还有一部分就是从患者的数据行为信息中分析出来的。
在网上流传着这样一则视频,一位社区工作人员敲开了一户人家的门,在确认了身份之后说:
"您的情况属于大数据密切接触者,大数据显示您和新冠肺炎患者有密切接触的可能,现在对您实行为期14天的隔离。"
在对方的追问下,社区人员解释说:"您是有与患者密切接触的可能,比如乘坐同一交通工具之类的,具体是什么情况我们也不了解,只是根据上级单位派发下来的名单来通知。"
社区执行人员只是拿到了大数据分析结果,也就是需要隔离的人员名单,而具体的原因不得而知,因为这是系统提供出来的。此外还有根据用户的行为轨迹(如与确诊病例同时在一个封闭场所)、消费记录(移动支付的记录)等进行密切接触识别的。可以看出,为了对付疫情,多个企业和运营体系(包括交通、运营商、互联网企业)参与了对客户精准识别的工作,不同系统的大数据在共享和联动。
几年来推不动的事情,如今搞定了。
大数据的第三跳
如今,全国绝大部分地区在按照"疫情防控与经济发展两不误"的基调来开展工作。虽然疫情的蔓延得到了一定的控制,但并没有结束,在这种情况下复工,如何降低疫情扩散的风险?
随着时间的推移和案例的增加,我们越来越了解新冠肺炎。从目前来看,连续14天没有出现发热咳嗽等症状,基本可以认定为健康的,可以正常工作。那么如何识别这些人?
阿里巴巴在支付宝里推出了"健康码",由用户自行申请,如果是绿码就代表没问题,如果是黄码就属于7天隔离人群,如果是红码就属于14天隔离人群。
那么这个健康码从何而来?应该是基于阿里巴巴自有或者合作的数据进行分析的。有人反映因为当天上午骑过一辆共享单车,结果自己的绿码变红码,这一方面说明健康码的生成使用了共享单车的相关数据信息,还说明健康码可以实时查询、及时变更。
健康码虽然方便,但要全国推广还要解决很多问题,比如安徽推行的健康码虽然也是绿、黄、红三种,但是定义就与杭州不同,相应的数据/算法也不一样。
相比之下,运营商提供的漫游地实时查询服务成为普及程度最高的复工助手。因为运营商本身就是属地化运作模式,可以按照各省的管控要求量身定制。比如北京的最低要求是在本地隔离14天,于是北京的用户发送短信或者扫码查询,收到的反馈信息就是该用户在30天内待过的地方,以及15天内待过的地方。
可能有人会问,这不就是一个实时查询么,为什么说这种应用是大数据的重要一跳呢?
以往的大数据应用往往是两种模式:一种是离线的分析,主要用于数据统计和决策支持,由于对时效性的要求不高,因此可以充分地进行数据以及算法模型的选择,甚至可以同时进行多个模型的测算;另一种模式是在线的操作,比如精准营销或者推送,虽然实时强,但是数据分析与业务的相关性也很强,换一个业务或者场景就需要做很多调整,成本高,所以应用的范围也很难推广。
而这次的实时查询以及对内容的及时更新,是直接面向最终客户推出了大数据查询服务,是新的大数据应用模式。如果这种模式形成规模,就可能会对传统的运营体系产生冲击,让大数据从后台走向前台,从辅助走向主导,大数据系统也会从成本中心变为利润中心,改头换面重新出现在世人面前。
疫情之后的大数据展望
在与疫情战斗的过程中,在各种突发应用的推动下,在短短的两个月的时间里,不仅各方对数据价值的认可度有了大幅提升,而且跨域数据的共享与协作、面向个人的数据服务、大数据的实时性等,大数据产业在几个领域实现了质的突破。那么疫情结束之后,大数据目前的良好发展势头还会延续么?展望未来,大数据产业会面临什么样的发展机遇?
1、在极端情况下,大家对隐私保护和信息安全的容忍度降低;待疫情结束之后,你会把手机里已经打开的位置服务功能关闭么?
2、目前开发上线的涉及个人隐私的服务,会下线关闭么?
3、跨域数据共享和分析应用创新带来好处,但同时给信息安全和隐私保护带来新的威胁和挑战,如何平衡两方面的关系?
4、企业之间的大数据合作,是"协同"模式还是"集中"模式?企业会把自己的数据交出去么?
5、尝到了甜头之后,政府会推行什么样的产业政策发展大数据?
6、人工智能、区块链等与大数据相关的产业,能否顺势发展?
对这些问题我并没有答案,只是想抛出来与大家共同探讨。大数据产业的话题很多,这种热度今后也会长期存在,作为产业从业者,我们看到的是商机;而作为个人,面对一个可能比我还了解自己的IT体系,我是挺害怕的。
根据《网络安全法》实名制要求,请绑定手机号后发表评论