第六课:大数据的普及与深化对信息安全的侵害
在上一期跟大家谈了谈大数据、AI、人工智能、机器学习还有区块链这些技术之间的一些联系,这一次我想跟大家谈一谈大数据技术在普及和深化的过程中,会对我们个人和社会的安全所带来的一些侵害。
首先我们要知道要了解一下大数据是怎么工作的,在2009年美国有一个HN1型的流感他爆发了,谷歌在流感大型爆发前提前大概两周的时间就公布了一份论文,这份论文里面就在预测说美国将要爆发流感,在哪些地区将要爆发的更严重,谷歌的提交这份预测,比美国疾控中心要早的好几个礼拜,这件事情其实引起了一个震惊。
其实道理很简单, Google收集了2003年—2008年期间大量的用户们在搜索引擎上输入的关健词,这些关健词都是跟感冒跟流感相关的,这些关健词在什么地区、什么时间会慢慢的突然出现等等,这个是谷歌通过搜索引擎收集的数据从而最早得知的。
美国疾控中心反而要更慢一些,因为它是在有大量病人进入医院,医院接待病人以后才得到这个数据,但是一般流感病人不会在刚刚开始有症状的时候就去医院,很多人都是一直坚持到实在不行了才会去医院,因此谷歌能够通过对之前全世界各个地方的所有的用户他们相关与流感的和身体感受的这些情况贡献的这些数据。
比如搜集口罩、洗手液等等,其实也跟流感是相关联的,还有一些并不是特别直接相关联的,比如说像在2000年还有大量的录影带的租赁店,关于租赁录影带消费的搜索量也增加了,也侧面反映大家不想出门,要留在家里看电视等等现象,这些其实都可能跟流感的发生和流行是有一定的关联度的。这是2009年大数据的一个经典的案例。
经过十年,现在大数据已经被广泛应用在很多领域,而且很多数据公司都在特别努力的去收集所有的每个用户全面的数据,因为就像我们刚才讲的,预测流感,不是只关注大家搜感冒药这一件事儿,可能你还要关注大家的其他的很多特征和生活变化。这些变化可能都跟流感有关系,甚至说有的时候你都看不出来跟流感有什么直接的关系,但是统计学会告诉你说这些跟流感也都是有关系的。
比如说有一个案例,每一次美国发生台风或者飓风这种特别恶劣的天气状况时候,在超市里的某一种饼干他就卖的很好,大家就不明白了,从关联度上来讲,当然如果天气很恶劣的话,大家就要在家里待着,对饼干的消费肯定就是增加了,这是没问题的,
但是为什么在这种天气恶劣的情况下就专门有某一种饼干比别的饼干卖的更好,但是在平时的时候也并没有迹象证明,这个饼干更受欢迎,这种关联度,是从哪儿来的呢?
这个时候用逻辑就很难给弄清楚了,你需要去观察这种饼干,去品尝它、看它的包装,都很难直接找到一个逻辑关系,但通过大数据的收集、整理、处理你就会发现这个关联度。
所以现在每一家数据公司都试图去收集所有他能收集到的数据,不像以前,比如说以前的时候我是做服装的,我要收集的就是大家都喜欢买什么样的衣服,这最直观的一个数据关联度,你要喜欢买什么样的衣服的话我生产类似的衣服推给你广告,但是现在,我不满足只推送曾经买过我衣服的人,我更希望能够找出那些没买过我衣服但是也有可能会买我衣服的人。这样的话,我除了要搜索他之前买衣服的记录,还得把这个人的生活信息全都收集到,这样才能够去做更好的数据分析,做更好的大数据的关联性计算,这里就涉及一个概念叫做unionID:同一用户。
在《网中人》小说里其实一直有提及,就是《网中人》小说里这个巨无霸公司,所谓的异文网,这就是一个虚构的互联网大的互联网公司,这个互联网公司他其实有非常多的不同的应用,他有地图,他有网店,他有外卖,他有直播,他有各种各样的APP,每一个装了这些APP的用户在使用这个网站的APP的用户,他都在为异文网贡献他的数据了,这个异文网内部他试图去做的一件事情是什么?
就是拼凑出同一个用户,比如说你现在用一个APP在看网络视频,另外一个APP去做地图搜索,第三个APP在做外卖,你用的这三个不同的APP上你都有三个不同的ID,这三个不同的ID未必就是完全一模一样的名字。现在很多互联网公司试图要做的就是要把这些不同的ID找出来,归结到同一个人身上,从而能够收集你全方位的信息。
这个拼凑其实也很简单,也并不复杂,因为大部分的APP都会要求你提供电话、邮箱地址,或者你的装在同一部设备上的这些应用,他都能拼凑出来是同一个人在使用,这种对用户进行全方位画像其实是数据收集的一个最重要的方式,
在这种收集的过程中显而易见人就变得更透明了,就变得更可预知,就像谷歌能够预测流感一样,互联网公司也能够通过对你的这个数据的收集和学习他能够慢慢的了解你的规律,他可能能预知你下面要做什么事情,有的时候我们自己可能都不清楚我们下面的反映是什么,但是也许互联网公司会比我们了解的更清楚,这其实是一件挺可怕的事情,也在给我们打开一个人把我们的防护和防卫都给解掉了,打开了很多的软肋能够被别人利用或者侵犯的这些软肋,这是一个很大的风险。
还有没有更进一步的风险可能会存在的,比如通过人脸识别、数据的收集来对一个人的内心世界进行的一个预测,这个概念虽然现在听上去还是很新的一个概念,但是这个概念并不是纯粹的不可能的。在《网中人》这个故事里,一开始的潜逃的这个老陈,他其实是动互联网公司里面发现了一个问题,这个互联网公司他其实在偷偷的收集每一个用户手机的视频的摄象头的数据,也就是观察你的脸,把你脸拍下来这个数据,同时还在收集手机力学数据。
什么叫力学数据,就他的陀螺仪、加速剂等等,专门记录他手机的角度,或者移动的速率等等,
是这些数据,这些数据有什么用呢?本来手机公司收集这些数据是无偿提供给任何的一个APP使用的,任何一个APP都可以随时调取这些力学数据,用处就比如说,你在使用微信摇一摇功能,你手机摇一摇,你的微信APP怎么知道你手机在摇呢?他就要调这些力学的数据。这些互联网巨无霸公司收集每一个用户的手机的这些力学数据,目的其实是什么呢?
他能够通过这个手机的力学数据,他能够推断这个用户他到底在触摸这个手机上的哪个位置,因为咱们拿着手机触摸的时候我们自己会感觉这个手机并没有动,但是其实这个手机是发生了运动的,因为你只要一点击他受力不平衡就发生很细微的微小运动,这种运动咱们可能察觉不到,但是手机里面的这些传感器都能够察觉到,
他们会把这些数据拿出来就跟你摇一摇的时候出现的那些数据是一样的类似的,这个时候这个APP如果在暗中收集了这些数据之后,他一直在学习你的话,特别是他能够通过摄象头观察你的脸,知道你现在正对着这个手机操作,以此来区分你是不是在对这个手机进行输入的操作,或者说他只是放在你口袋里那个就是很随机的在振动,他能够把这个区分开来之后,他就能够非常专门的来学习你在触碰这个手机的时候点击,刻意的点击这个手机的时候发生的这些振动跟你输入内容这种关联度。
如果他真的学习你的输入习惯和输入内容以及这个手机力学数据变化的这些关联度,他能够计算的很精准之后,这个APP即便是在后台它也能够发现你在其他APP输入的东西是什么。比如你在使用网络银行的时候输入的密码是什么,你在你打开你的邮箱的时候使用的密码是什么,或者说你发微信的时候发出去的那些信息是什么,它就可以识别出你在这个手机上的输入的任何的东西,虽然是小说里的技术,但并不完全是虚拟的,其实是有可能发生的,而且有一些公司就已经在开发这类型的技术了。
你比如说像苹果公司他之前的时候就是会把这些力学数据直接提供给各个APP使用的,也不需要经过你用户的同意,但是在我记得好象是去年年底或者是今年年初的时候一版新的IOS里面,操作系统里面他就会增加了一个设定,就是要求你所有的用户想要去读取手机里面的这些你所有的APP想要去读取手机里的这些力学的数据的时候,必须得经过用户的同意,所以这也就证明说像苹果公司这样的他是手机的开发商,他是生产商他都没有事先都没有意识到他提供的这些数据可以被别人怎样的利用,所以这个是这个技术的一种风险,这也是说所谓的大数据和高科技在发展的过程中可能会出现的很多的风险之一。
比如说我们现在每个人每天跟谁最亲,谁看你的次数最多,肯定不是你的爱人,不是你的家人,而是你的手机,这个摄象头就是手机的眼睛,你不知道你的手机里的哪个APP他其实正在调取你摄象头的使用权限,他正在通过你的摄象头观察你,说不定有不少APP都在暗中不停的在观察你,就跟我们大家都一直听说的一些新闻,有一些APP在偷听我们是一个道理,比如说你在平时从来没有搜过一个产品,但是你提到,在跟朋友的聊天中提到的一些关健词,你第二点就会在手机上收到这种产品的推送,这也挺可怕的,就说明那些APP他在偷听你。
你的APP未来特别是到了5G时代,这个网速特别快了之后,你的手机是不是也在偷看你,这家互联网巨头就是异文网他的后面的操控者,他在收集了这么多的人脸的数据之后他想要做什么,他想要通过大数据的方式去学习每个人脸上细微的表情变化,这个细微的表情变化跟这个人内心活动的一个关联,
比如说这个表情变化就意味着你喜欢这件事情,或者你讨厌这个事情,我们有的朋友就说我非常的低调,我平时不在朋友圈里评论,我不在任何地方评论,那我都把我了想法藏在我心里,我要不要去得罪人,你比如说我们都有这种体验就是你刷朋友圈的时候会发现有的人怎么这么神经病,每天发这种东西很反感,但是你肯定不会直接在下面评论说你是不是有神经病,但是您的手机在观察你,他可能通过你的这个表情的这些细微的变化他能发现你到底是讨厌这个还是喜欢这个,因为我们自己夜里每个人在家躺在床上刷手机的时候肯定是不会掩饰自己的表情的,也不会去误导我们了手机的用表情,
所以这个时候你是暴露无疑的,如果他观察到了你内心的变化,下一次的时候他再想得知你的想法的时候,即便你不发言也许都能够通过你的这些面部表情来发现你内心的感受,这其实是一个更可怕的一个应用,当然这是未来,这不是现在眼前就一直在普遍发生的,但我相信他也不是一个很远的未来,因为现在咱们是处在一个新媒体的时代,并不是以前传统媒体的时代,
这些媒体自媒体他可以根据你个人的喜好和习惯和他对你的了解,他你会喜欢的那个版本推给你,而不是事实真相的版本,这种情况就意味着什么,就意味着说我们每个人都会看到一个自己想看的那个版本的社会新闻,这件事情到底发生了什么其实我们不知道,或者说这个政客他到底是一个什么人,其实我们也不知道,我们就只知道人间希望我们喜欢他,所以给我们推了我们会喜欢他的那些事情,我们就拥护他,或者某一种政策,
这种政策的真相我们也不知道,我们只是人家知道我们会喜欢这个政策怎么样去陈述他我们就会接受他或者喜欢他,当这个大数据算法他能够猜透你的内心想法或者知道你的内心感受的时候我们每个人都变成透明的,这个透明的一个风险不止是说我们被人发现,还更可怕的是我们可以被人洗脑,这个其实是在一个新媒体是在大数据时代一个更多的一个风险。
由于时间的关系,我今天先跟大家聊这么多有关大数据时代的这个科技发展,他可能会对我们个人和社会的安全所带来的侵害,下一期我想讲一讲,我们怎么样作为一个普通人,我们有什么办法能够尽量减少这些风险对我们的侵害,谢谢大家。
账号合并
经检测,你是“钛媒体”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。
Oh! no
您是否确认要删除该条评论吗?