日前,第四范式先知(Sage)企业级AI平台完成了PrivacySealEU认证工作程序,率先通过欧盟GDPR认证,成为国内第一款通过该认证的AI平台产品。
众所周知,数据隐私保护一直是大众和企业用户关心的AI应用焦点问题,而欧盟GDPR则是隐私保护领域最为权威和细致的立法,是全球个人数据保护和企业AI应用的最高标准,被称为“史上最严个人数据保护法”,其通过约束信息处理行为,赋予公民对其个人数据更大的控制权。
此次先知(Sage)平台通过欧盟GDPR认证,在证明第四范式产品及隐私计算技术的数据安全性和可信任性的同时,也带来给我们一些思考,国内的AI企业想要走出去,GDPR是一张不可或缺的入场劵和法律保障,更进一步从行业角度来分析,眼下我们距离拿到这张门票还有多远的路要走,路又该怎么走?
“先知”完成欧盟GDPR认证,其中蕴含了哪些逻辑?
欧盟GDPR认证的这条路,并不好走。
“我们一年多前就开始准备相关的申请,PrivacySealEU不同于其它标准认证,在条款上已经细化到具体数据流问题,GDPR的条款‘多且细’,只有在确保所有条款‘绝对合规’时,对方才会给予通过,因此我们准备了大量的材料,涉及产品架构设计、数据处理流程、技术端和法律、管理端等方方面面。”在接受钛媒体专访时,第四范式主任科学家涂威威对钛媒体表示。
在谈及先知平台之所以能够通过欧盟GDPR认证时,涂威威告诉钛媒体,主要有以下两个方面的原因:
其一,得益于第四范式在隐私保护领域的持续投入和深厚积累,第四范式很早便投入到隐私保护技术探索中,并取得了一些实质性的成果,比如第四范式的差分隐私算法,与其它差分隐私工作相比,在获得相同隐私保护强度的同时,拥有着还能得到更有效的分析结果;
其二,第四范式在安全性和合规性的意识较好,自成立之初便开始服务于金融类客户,而金融正是安全高敏感行业,因而客户对于数据隐私的要求往往比其它领域要高,因此第四范式也更加了解企业对于隐私保护的要求和标准。
近年来,企业逐渐认识到了AI的价值,将其视为“数智化转型”的利器。AI的本质在于能更有效、更精细化地挖掘数据的价值,而挖掘数据的同时,伴随着泄露隐私的风险。因此,企业以及AI技术厂商在应用AI的同时,更加注重在流程规范、人员培训、产品设计及功能、技术等方面“把好每一道关”。
从产品侧来看举个简单的例子,为了提高AI模型效果,业界有些做法是通过网络上爬数据或从第三方获得一些数据来使用。而第四范式在先知产品的建模技术不依赖于任何第三方数据,“客户在完成工作后,其相应的数据也随之销毁,数据无痕是先知平台的基本特性。”第四范式国际化产品负责人王荣兴对钛媒体补充到。
不仅如此,第四范式资深研究员郭夏玮介绍说:“先知平台从一开始的系统设计以及算法设计就做了很多合规性方面的准备。因为我们的理念是将AI赋能给企业,让企业拥有AI的能力,我们提供安全合规的数据治理加上客户提供的合规数据,再基于我们自研的保护隐私的AI算法,在保护用户隐私的同时也可实现优秀的效果,这样的理念也得到了客户的认可和信任。因此,我们主要集中在技术上的打磨和产品的迭代。”
另外,先知平台还提供数据破解保护,对于用户地址、电话、身份证号、姓名等敏感信息进行常规的匿名化处理,同时还支持更加严格的防止撞库、差分攻击等攻击手段的先进数据匿名化技术,所有的可访问接口均由完善的多层权限保护系统来控制。值得一提的是,先知平台无论是公有云、私有云还是私有化部署,均达到了GDPR的要求。
在隐私保护中,技术起到了哪些关键作用?
事实上,AI模型训练涉及到大量用户数据的使用,这些数据或多或少包含了敏感信息。
然而,以往常用的加密手段并不能完全保证数据安全,攻击者还可以对分析结果的差分攻击以及查表撞库等方法反推原数据。此前,卡内基梅隆大学Latanya Sweeney教授在《简单的人口统计往往能识别出人的独特性》报告中提到,在基于美国选举人公共注册信息的基础上,87%的美国人基于邮编、性别、出生日期即有可能被识别出个人身份。“甚至是统计数据也可能泄露用户隐私”,涂威威提到,“有一种针对统计数据的重建攻击,可以通过数据方发布的大量统计数据、模型等,反向求解重建数据信息,例如美国2010年人口普查,基于3亿人口,发布50亿统计指标,通过求解线性系统就可以很大程度上重建原数据,早在2003年就有公开论文详细描述了这种攻击方法”。
在兼顾发挥AI价值以及保护隐私的情况下,有着充分理论基础的差分隐私技术正在成为隐私保护以及AI领域的关注焦点。在《麻省理工科技评论》最新发布的2020“全球十大突破性技术”中,该技术位列其中。
针对于此,涂威威对钛媒体谈到,“差分隐私是一个数学上的约束定义,假设把一个操作当成一台机器,输入是数据,输出是根据数据产生的一些结果,那么这些结果是可能泄露数据隐私的。我们所说的这台机器满足差分隐私,直观上就是假如输入数据在有限的改变情况下,输出的改变也应该满足一定范围,如果输出改变很大,那么就容易使用类似“差分攻击”的手段从输出结果来窃取用户隐私。具体的方法,是对原操作中的某些步骤,通过注入噪声、混淆等形式,来使得操作得到差分隐私保证。然而就目前的大多数方法以及对应的理论来看,对于隐私保护的要求越高,需要注入的噪声强度越大,从而对算法效果造成严重负面影响。”
第四范式对目前的差分隐私技术进一步优化,通过更好的分配隐私预算、更有效的分配噪声等方法,做到了在保护数据隐私的同时,提升分析结果的有效性。目前,该技术可广泛应用于数据收集、数据分析、数据发布等阶段。
值得一提的是,该方法还可以直接拓展到迁移学习上来,第四范式与瑞金医院合作的“瑞宁知糖”,便应用了该方法,系统可从数据较为完善的大型医院中迁移出有价值且受隐私保护的知识,去帮助地方医院、社区医院、体检中心等机构做更加完善的医疗诊断。
更进一步,当前的隐私保护技术使用门槛较高,在保护隐私的前提下,多方联合数据建模的常见做法依然需要比较多的专家人工介入到数据预处理、特征工程、模型调参当中,第四范式也进一步提出了保护隐私的自动多方机器学习的方法,综合差分隐私技术、自动化机器学习技术,减少了专家人工的介入,一方面进一步提升了安全性,另一方面也大幅降低了隐私保护技术的使用门槛,使得广泛落地成为可能。
同时,涂威威也指出,以差分隐私为代表的隐私保护技术仍需要在理论、效果、应用、成本等方面进一步解决和优化。
在隐私保护这条道路上,AI企业是否有捷径可走?
随着人工智能与各类行业、多个场景深度融合加速,针对数据隐私、数据安全的防护已然成为产品不可或缺的一环。
但隐私泄漏事件在AI圈却屡见不鲜,就在日前,美国人脸识别创企Clearview AI就被爆出重大数据泄露丑闻,企业称其整个客户名单都被盗,包括美国警方、执法机构和银行,在社会上掀起轩然大波的同时,这家公司目前也面临多起诉讼和调查。
根据相关报道称,Clearview AI从网络社交媒体上抓取了超过30亿张照片,形成了庞大的生物特征信息数据库,有600多家执法机构及一些私人安保公司都在使用它的人脸识别产品。只要上传任何一张照片到Clearview AI的软件,就能查到这个人在各社交媒体平台上的照片,甚至是姓名、地址以及其他身份信息,而且这些数据还未经过被抓取照片者本人同意,这显然是AI产品不合规化发展带来的必然结果。
眼下,国内在数据合规方面的整体意识不断增强,无论是政府、企业还是大众,都越来越重视隐私保护。这就意味着,AI企业在隐私保护和数据安全这条道路上并没有什么捷径可走,AI企业必须静下心来做好产品本身。在涂威威看来,数据隐私、数据安全将会是接下来的行业热点话题,而数据作为AI技术应用的核心基础,更必须要打牢。
从某种程度上来分析,第四范式先知成为国内首个通过GDPR认证AI平台对于行业来说,很有可能让国内AI企业对于数据隐私、数据安全的建设提上日程,而日后的AI竞争格局,也将上升到更高的维度。
(本文首发钛媒体,作者/桑明强)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
重视隐私保护