一桩全球IT灾难级事件,让不少微软员工大为恼火:明明不是微软的“锅”,铺天盖地的各种报道却都是“微软蓝屏”。
7月19日,全球约850万台装有Windows操作系统的计算机出现“蓝屏”死机现象,出现故障的终端并不限于桌面终端,还覆盖了大量的服务器和云节点,包括导致了多个重要的微软和AWS的云服务和租户服务中断,而且相关主机重新启动后依然会自动进入蓝屏状态,形成了反复崩溃闭环。
据不完全统计,至少20多个国家在内,包括医院、银行、航空公司等大量社会基础设施一度停摆,造成的直接和间接经济损失以十亿美元计算。
本次事件带来的后果影响远远超过了2007年赛门铁客误杀中文版Windows导致的系统蓝屏事件,直追2017年的勒索病毒WannaCry,在历史上注定要留下浓墨重彩的一笔。
而导致这一历史事件的主角,是一家大多数人并不熟悉的美国网络安全企业——CrowdStrike。
但其重要程度,丝毫不亚于任何一家海外互联网巨头企业。据报道,美国总统拜登专门听取了关于本次事件的详细汇报,美国众议院国土安全委员会还要求CrowdStrike公司CEO乔治·库尔茨(George Kurtz)前往国会,就这一重大IT事故作证。
事故发生之后,尽管微软和CrowdStrike用小时级的响应速度,先后发布公告和更新,试图修复这一问题,但是行业并不十分买账。
一方面,客户对于CrowdStrike的后续处理并不满意,乔治·库尔茨的态度傲慢,CrowdStrike的处理方式简单粗暴,事故恢复效率不高。CrowdStrike给用户发放10美元的UberEats外卖代金券作为补偿,还不是每位用户都有。企业客户已经在考虑替换甚至起诉CrowdStrike,马斯克就直言,将在特斯拉所有系统中删除CrowdStrike。
另一方面,行业更关注的是,为何一家安全公司居然能轻易导致如此严重的后果,微软的安全审查机制为何不起作用,以及网络安全行业该如何自查自醒。
并非软件升级,而是“规则更新”
洞悉本次事件的原因,首先要清楚CrowdStrike的工作机制,以及微软和CrowdStrike的合作模式。
2011年,两位传统杀毒软件企业McAfee的高管发起创立CrowdStrike,乔治·库尔茨在创立CrowdStrike之前曾担任McAfee公司的CTO。
CrowdStrike核心产品Falcon开启了多租户、云原生、智能安全解决方案的先河,凭借技术、体验、服务等优势(也凭借其和美政府良好的关系),迅速领先于同领域企业,并曾较长时间内是诸多网络安全上市企业中,市值最高的公司之一。
青藤云安全CEO张福对钛媒体App表示,CrowdStrike优势主要有三点,SaaS化、轻量级和威胁情报,三者相辅相成。
SaaS化使得CrowdStrike覆盖大量客户,收集大量数据形成足够丰富的威胁情报,一家企业遇到的问题可以为其他企业提供预警;威胁情报越强大,就越能识别各种病毒变种,实现轻量级的功能,无需像传统终端安全软件对系统做深层次的改动;更加轻量级的模式又能带来更好的客户体验,形成正向循环。
安天科技集团高级副总裁、安天云安全公司负责人王小丰也表示,CrowdStrike基于云的安全托管服务和支撑其Falcon产品后面的威胁猎杀工程师,是其核心优势之一,也正是CrowdStrike导致本次事件的原因。
CrowdStrike直译为“联合打击”,部分代表了其理念和商业模式。CrowdStrike的威胁猎杀工程师会根据云平台监测到的线索,比较频繁地更新和分发威胁数据的检测/采集配置规则,所以导致本次事件的更新内容,并不是公众以及部分业内人士误解的“软件更新”,而是模块、主防点和相关配置定义的混合升级。
根据CrowdStrike给出的解释,程序在增加处理新观察到的利用命名管道进行C&C通信的恶意代码活动时,更新相应的配置文件(“C-00000291-”开头的文件)触发了一个代码中的逻辑错误,在内核态形成非法内存访问触发操作Windows系统蓝屏。
也即是说,CrowdStrike每天都要更新多次威胁情报的规则,由于不是软件版本的更新,所以显得有些“随意”,而规则更新导致了连锁反应,最终造成微软Windows操作系统崩溃。至于规则更新如何作用于Windows,微软和CrowdStrike暂未给出原因。
对于微软和CrowdStrike的合作机制,微软发言人在接受媒体采访时表示,2009年微软与欧盟达成协议。根据该协议要求,微软承诺给予所有安全软件与微软自身软件相同的Windows内核访问权限,使得像CrowdStrike这样的第三方安全软件开发商的安全产品,可通过Windows客户端和服务器系统中的API,访问并执行极其复杂的操作。
微软认为,这一政策的代价是系统安全性降低,蓝屏死机事件正是这一政策后果的体现。微软发言人抱怨称,“尽管公司希望能够进一步锁定操作系统以提高安全性,但欧盟的要求使得这一目标难以实现。”
腾讯安全iOA产品运营总监Raymond提到, CrowdStrike目前提供的信息上主要是解释蓝屏原因,但没有解释“为什么没监测到引发蓝屏的错误更新”。并且由于缺乏细节,目前没有明确信息能回答CrowdStrike为什么没有提前发现这个错误。
微软Windows生态机制较为开放,所有软件都可以随时、独立自行提供版本更新、二进制更新、策略模块更新等机制,每次发布的更新也并不需要微软审核后才能发布。因此在微软的视角上看,CrowdStrike是一款可信的安全软件,其内核驱动csAgent.sys存在可信签名允许在Windows系统加载,也就难以发现其策略更新引发的csAgent.sys逻辑错误而导致蓝屏。
CrowdStrike的“傲慢与偏见”
事故之前发生的CrowdStrike,财务指标异常优秀,市值也近千亿美元。在本次“蓝屏”事件发生前,CrowdStrike已经出现 “傲慢”和“迟缓” 的苗头。
过去数月,CrowdStrike出现多起稳定性事故,显得响应迟缓、店大欺客。例如今年4月份CrowdStrike 的防病毒更新导致一家公民技术实验室的所有 Debian Linux 服务器全部崩溃并无法启动,类似的问题也出现在 Rocky Linux 系统,均是因为CrowdStrike 在不同操作系统上的兼容性测试不足。
本次“蓝屏”事件发生之后,CrowdStrike的应对依旧不尽如人意。王小丰提到,CrowdStrike后续的联动处理不够合格,例如,处置方式的发布需要通过了用户认证登录其网站上才能看到,说明其还是担心事件影响扩散,大量用户在当时所有主机已经蓝屏停摆,根本不具备登录其网站查看信息的条件。
“令我们特别费解的是,其提供的处置方式进入在安全模式后,手工进行的文件查找和删除,由于这一事件必须要网管和用户逐一机器处理,这就使相关操作要消耗掉很多时间,而相关处理可以快速简单地封装成一个GUI或行命令工具,帮助用户节省时间,但CrowdStrike却一直没有做,因此我们才在事件的几个小时之后写了一个GUI的小工具。”王小丰如是说。
张福表示,CrowdStrike在Windows上覆盖率很高,Linux和mac上覆盖的很少,结合CrowdStrike公布的客户数量和去年30亿美金的营收可以推算,其在全球装机量不超过2000万台PC。
850万台机器蓝屏,是因为CrowdStrike推送规则更新的时候,正好有这么多的电脑在线,考虑到全球时区不同,如果有更多电脑在线,本次事件的影响只会更大,CrowdStrike根本没有设定相应的反馈机制,一推送就是全量。
全球范围内,中国企业受到本次事件的影响较少,奇安信预估,国内的CrowdStrike软件装机量在万级,相关单位数在百级,用户主要集中在北上广深等发达地区。受影响的主要是外企、外企在华分支机构及合资企业,大量这类机构中招,有反馈某个在华外企大量终端中的40%崩溃。
这是因为CrowdStrike对中国大陆禁售,而且并不是近年来中美关系紧张之后的事,CrowdStrike对中国早有偏见。客观地说,CrowdStrike是一家典型美国政治生态下的“旋转门”企业,即公职人员在政府机构与私营组织之间来回任职。
王小丰表示,从创立之初至今,CrowdStrike高管团队中有大量原联邦调查局(FBI)及军方官员,他们在政府任职期间曾参与了高层网络政策制定、网络力量以及网络活动溯源等活动,可为该公司与美政府的深入合作铺路。
CrowdStrike现为美国联邦政府、美国国防部等机构的主要安全供应商之一,是美国土安全部网络安全与基础设施安全局(CISA)组织的联合网络防御合作计划(JCDC)首批成员,是美国防部受控非机密信息(CUI)最高授权级别IL5供应商,这项授权允许美国防部、情报界和其他联邦机构部署CrowdStrike产品保护最关键的非机密资产,构建零信任架构。
从资本方面来看,CrowdStrike也是在美政府背景资本扶植下成长起来的。CrowdStrike从2011年成立到2019年6月在纳斯达克上市,华平投资集团(Warburg Pincus)一直是最大股东,参与了多轮融资。投资CrowdStrike决策期间时任华平投资集团董事长曾担任美财政部长,极力污蔑“中国窃取美国知识产权”。
CrowdStrike拥有先进的威胁情报、事件响应和持续监控能力,这些能力对于美全球推行“向前防御”(Defend Forward)行动至关重要。CrowdStrike服务于美霸权战略。其创始人、前首席技术官德米特里·阿尔佩罗维奇(Dmitri Alperovitch)更曾长期从事针对中国的“网络调查”CrowdStrike多次发布在网络安全问题上抹黑中国的分析报告,是美方构陷抹黑中国的急先锋厂商。
“尽管CrowdStrike曾反复参与抹黑中国的活动,在面对本次重大全球事件中也显示出冷漠和傲慢,这都让我们对其有很大的反感。但我们必须客观承认,CrowdStrike拥有超强的产品研发和运营服务实力,依然是国际最优秀的安全企业之一。对于CrowdStrike彰显的出的技术实力和运行模式等,我国的网络安全产业界需要对其研究、对标、及超越,强化我们自己的先进系统侧安全能力和威胁对抗运营体系。”王小丰说道。
国内安全行业应该学到什么?
在中国市场,国内主要相关外资企业、部分使用微软数据中心的企业、还有一部分为国外用户作外包的软件公司(因境外客户对供应链的统一安全要求),会使用Falcon,而这些厂商也已经开始做两手准备。
国内的另外一些外资企业,出于价格的原因相当一部分会选择其他美国厂商(如Palo Alto Network)的替代产品XDR,故国内影响范围比较小。据悉,CrowdStrike的产品价格在去年翻了三倍。
张福提到,短期内一批客户已经在准备替换CrowdStrike,另外微软有自己的终端安全产品(Microsoft Defender for Endpoint),和CrowdStrike是完全竞争关系,CrowdStrike最大的对手可能是微软自己,企业客户对微软的可靠性和兼容性的认可要更高一些。
王小丰也表示,Windows自切换到NT架构后,微软兼并了多个安全公司,组建了可信计算和应急响应部门,一直在将操作系统的安全能力内置化,同时微软也在应对安全问题上界定自己的合理边界,至少微软很难去解决其他OS场景的安全问题,如Linux、Android等。
“这里涉及到技术能力,涉及到基础信息产品厂商和安全厂商的分工问题。但微软自身安全能力的强化、生态的构建,是非常值得我国操作系统厂商对标学习的。”他说。
Raymond表示,本次事件凸显了当前全球IT系统的脆弱性风险,主要包括大型机构对单一供应商高依赖的脆弱性、Windows系统自身的脆弱性、网络安全产品架构的脆弱性。
企业和机构应通过构建多种操作系统服务器资源、多地部署业务等方式,保障在应急时能快速恢复;同时应要求供应商提供的产品具备灰度更新的机制,任何变更类操作均限制在企业和机构内部是逐步覆盖;
他也认为,本次蓝屏虽然主因是CrowdStrike软件内核驱动更新引发,但微软作为Windows操作系统开发方,可以提供更健壮的windows系统保护机制。比如在蓝屏反复出现场景下,能自动屏蔽引发蓝屏的根源模块,保障系统能正常运行;安全厂商应考虑在产品架构模式上进行调整,减少在内核层的工作逻辑占比,从而降低蓝屏等严重故障的风险。
在本次微软蓝屏事件中,国内安全行业也在反思己身,CrowdStrike所暴露的问题,国内安全行业也普遍存在,不过由于独立部署等原因,并没有引起大规模的IT故障。
一位行业专家表示,“国内终端安全产品能力参差不齐,多数产品在海量终端管理运营结构、内核态的检测技术、自主的恶意代码检测引擎技术、敏捷运营和规则体系方面,不仅和CrowdStrike差距很大,也不及CrowdStrike的主要国际竞品。”
近年来国内安全行业陷入行业发展的调整期,行业的沉疴旧疾也得到了大家的重视和讨论。
王小丰认为,国内需求场景、和品类赛道高度碎片化、对客群关系依赖严重,反过来导致研发投入耐心不够、炒作概念包装潜源创新。规模性安全企业由于基本都是品类横向生长的结果,难以达成科技行业必须的边际成本递减效应。这些都是国内企业必须直面的现状。
张福表示,“国内安全行业陷入到低效内卷的价格战,以投标为例,对参数的细节和复杂要求已经超过应有的水平,各个厂商为了在测试上有优势,往里面塞大量的没什么意义的指标。”
他还提到,最低价中标导致厂商缺乏合理利润,研发资源投入不足,产品质量和服务无法满足客户需求。厂商追求低价中标后,忽视后续技术支持和升级,造成恶性循环。
“海外头部厂商的安全产品不超过20个,国内头部厂商的产品超过200个,大家变着花创造概念、发布新产品,但这些产品其实价值很低,也没有什么太大的作用。国内厂商营收要做大就要不断发布新产品,市场产品碎片化严重,过度依赖新品开发而非提升产品质量和效率,导致内部成本高并最终转嫁给客户,双方利益都会受损。”张福说。
张福感慨道,“现在做安全的代价是非常高的,效率是很低的。但是,没有哪个产业会拒绝生产力的进步,随着时代的发展,尤其是中国网安行业有大量优秀的年轻人涌入,他们会推动行业往正确的方向走,也许不久的将来我们就会达到和美国网络安全行业一样的水平。”
(本文首发于钛媒体APP,作者 | 张帅,编辑 | 盖虹达)
根据《网络安全法》实名制要求,请绑定手机号后发表评论