始于2012年的亚马逊云科技每年的 re:Invent 全球大会,已经成为云计算领域开发者必须关注的活动。一个亚马逊云科技的老客户说:“这是一个特别接地气的技术实用主义公司,90%以上的创新都是用户需求反馈,另外不到10%是和用户交流的时候自己的思考,所以最牛的地方在于推出的技术就是万众期待亟待应用的,我去 re:Invent 现场惊讶的是每当产品发布下面自发的尖叫。”
11月29日亚马逊云科技高级副总裁 Peter DeSantis 在本届 re:Invent 大会关于 Amazon Lambda 优化的分享,就是一个很好的例子。Lambda 服务是2014年 Amazon.com 副总裁兼首席技术官 Werner Vogels 博士在 re:Invent 全球大会上发布的,这项服务重新定义了云计算的 Serverless 发展理念,一经推出就获得客户和行业的广泛认可,已经是非常成功的一项服务。至今,Amazon Lambda已累计发布了超过100款新的功能,超过100万的活跃用户,同时每月的调用请求量超过100万亿次。Peter说,技术团队还注意到长期以来“冷启动”(Cold Start)时间一直是Lambda 优化需求之一,虽然已经将冷启动时间从几秒缩短到不到一秒,现在又继续推出新的SnapStart来解决这个问题,可将冷启动时间再缩短90%。
亚马逊云科技每年在 re:Invent 全球大会推出众多新产品和技术,细节之多足以让人眼花缭乱,但梳理这些技术背后的逻辑,不难发现其实有两条主线——一条是云计算带来计算环境的变化,从而帮助传统IT产品和技术全面升级换代;另一条则是云计算的普及渗透,带来用户需求的迁移。基于海量数据的分析和深度学习越来越重要,这些新的需求又反作用于云计算,从而影响新产品技术的研发方向。
了解了这两条逻辑,我们再回头看亚马逊云科技复杂的产品线,就更容易掌握其中的脉络,更有效地找到自己需要的解决方案。
云原生吞噬一切
大会从诞生之初就选择了 re:Invent(重塑)这个词,其实已经非常准确地表达了云技术对IT和业务进行重塑。
从2006年亚马逊云科技推出最早的云服务——针对存储的 Amazon S3 和针对弹性计算的 Amazon EC2,那个时候的云计算还是典型的两栖状态——云的概念与传统IT产品,例如数据库、存储、服务器乃至芯片等都是硬性结合在一起,随着云计算的规模迅速扩大和应用深度不断拓展,这些传统的IT产品越来越不能适应云计算所需要的性能、安全、效率、弹性和成本等诸多要求,所以对于传统IT技术和产品的替代很早就开始了。
传统IT的基础设施,都是围绕着计算和存储展开的,算力的核心就是芯片,而存储的关键则是数据库系统,管理软硬件的是操作系统,连接整个系统的网络背后则是网络协议。在这10多年里,所有这些技术都在被云技术所替代。
数据库产品首当其冲。
在2012年,re:Invent 大会上发布云原生数据库 Amazon DynamoDB,以及业界首个云原生数据仓库 Amazon Redshift。在此之前,数据仓库是一项重资产的技术,只有大企业才负担得起,而且效果很不理想。Amazon Redshift 的优势在于规避了软件在本地安装时要考虑的兼容存储、计算能力以及最小安装等问题,一经推出迅速成为亚马逊云科技有史以来发展最快的服务,这个记录一直保持到2014年推出云原生关系数据库 Amazon Aurora。Amazon Aurora 全面兼容开源数据库 MySQL 及 PostgreSQL,它的速度最高可以达到标准 MySQL 的5倍、标准PostgreSQL 的3倍,成本却只有传统商业级数据的十分之一。
这种云原生的趋势,也很快从软件蔓延到了为云而生的硬件创新。2017年,亚马逊云科技发布第三代 Amazon Nitro 系统,在业界首次使用自研专用芯片,将功能从软件转移到硬件,把服务器性能完全通过全新的虚拟化技术解放出来,消除服务器虚拟化性能损耗,用户可获取全部物理服务器资源。同时,软件硬化也极大地增加了安全性。如今,Amazon Nitro 架构已经成为 Amazon EC2 所有超过600多种实例的基础平台。
这次大会,Peter发布了 Nitro v5,晶体管数量比前一代增加了一倍,提供了更高的计算性能,同时带来50%的DRAM 内容性能提升,2倍的PCle 带宽提升。相比于前一代产品,Nitro 将显著改善延迟30%,同时每瓦性能提高40%,PPS 提高60%。
因为规模巨大,所以任何一点细微的性能提升,都能在云计算网络中产生巨大的效用。在追求极致效率的云计算生态里,软件硬化,为云优化的硬件渐成潮流。在2019年,亚马逊云科技发布基于Arm 架构的自研云原生处理器Amazon Graviton2,开创了企业级应用大规模使用云端Arm 架构服务的局面,云厂商开始向传统IT的硬件制高点——芯片发起冲锋。Amazon Graviton2 的推出,标志着亚马逊的Arm 架构自研处理器进入规模化应用阶段。相比x86 处理器,Arm 处理器架构更精简、更节能,但此前一直没能在企业级应用领域取得突破。Amazon Graviton2 的规模应用树立了Arm 处理器在企业级应用的标杆。对比x86 处理器,基于 Amazon Graviton2 的同规格实例性价比提升可达40%。
自研芯片可以认为是亚马逊云科技持续创新的核心引擎,在2021 亚马逊云科技re:Invent 全球大会上,亚马逊云科技继续发布新一代基于Arm 的自研CPU 处理器 Amazon Graviton3,标志着对于云原生硬件的研发水平有进入到一个新的高度。与 Amazon Graviton2 相比,Amazon Graviton3 芯片采用5nm 工艺、64核,集成了550亿晶体管。与 Graviton2 相比,Graviton3 处理器支持为科学计算、机器学习和媒体编码工作负载提供高达2倍的浮点运算性能,为加密工作负载速度提升高达2倍的性能,为机器学习工作负载提供高达3倍的性能,同时最高可以实现60%能耗优化。本次大会,Peter发布了专为支持高性能计算工作负载而设计的基于 Arm 的定制 Graviton3E 系列芯片,对依赖矢量指令的工作负载的性能提高35%。
而作为粘合软件和硬件、传统IT与云计算最重要的一项技术——虚拟化,也伴随着云计算的发展迅速进化着,为了不断优化云计算环境下的计算效率而持续迭代。前面谈到的 Amazon Nitro 系统,已经可以完成从存储访问到加密监控和实例配置的所有工作,实际上将服务器硬件的所有计算,和内存资源提供给用户的实例,从而实例获得更好的整体性能,专用的 Nitro 卡可实现高速网络,高速 EBS 和 I/O 加速,不必为管理软件占用资源,从而压榨出更多的服务器资源回馈给客户。
本次 re:Invent 大会,亚马逊云科技将重塑的矛头指向了互联网的根本——TCP 协议,这也是个难以想象的事情,可以说,没有 TCP/IP 协议,就根本不会有云计算的今天。但是针对局域网使用场景而设计的 TCP 协议,在面对超大规模的网络和数据流动时,在一些特定条件下,也开始显示出一些效率问题,造成通信的瓶颈。Peter在大会上发布了 SRD 协议,他说:“我们现在是用数据密集型的,同时多路径的网络拓扑,这样的话我们可以避免网络过度的订阅率,又可以降低成本,同时非常有效地提升了网络的运行能力。”亚马逊云科技基于这个协议的ENA Express技术,将流量的 P99 延迟减少了50%,将 P99.9 延迟减少85%(与TCP 相比),同时还将最大单流带宽从 5Gbps 到增加到了 25Gbps。
至此,可以看到云对于传统IT基础设施的重塑基本上完成了初期覆盖的阶段。
从弹性计算到数据处理
本次 re:Invent 大会上,亚马逊云科技首席执行官 Adam Selipsky 说:“在今后的五年,我们创建了这些数据,可能会完全超过了数码时代一直到现在以来所有数据累加在一起的数量,这样同时也会告诉我们所有的组织都会面临着无限的机会。”
因为规模和分布式带来计算环境的变化,是驱动云计算重构基础设施的一个重要因素,而计算环境带来客户需求的变化,则又构成了驱动云计算技术继续演化的另一条主线,那就是数据。
云计算最初的刚需是弹性计算和存储,所以最初的用户更多来自零售和互联网等业务波动较大的行业,主要解决的是峰值期间算力不足的问题。但很快,大家发现数据在云上不但方便存储,而且更加方便分析和处理。于是数据湖的概念迅速流行起来,这个术语由Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,他对数据湖的解释是:把你以前在磁带上拥有的东西倒入到数据湖,然后开始探索。
数据湖也是个云计算时代的概念,与它对应的是传统IT时代的数据仓库、数据集市等概念。有趣的是,在数据仓库、数据集市等概念下,数据给人的印象是固体的货物,而在数据湖的概念里,数据变成了可以流动的液体。这其实也是云计算和传统IT观念最大的分野之一。
人类的大脑,最擅长处理三维空间和不超过7个变量,这样的思考能力显然无法应付云上指数增长的数据。亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian 在本次大会的发言中也谈到:“用在现在的数据处理并不是完美的想法。我们需要把数据集中在一起,它们之间会存在不一致性,所以我们需要把它进行自动化。而且数据不像我们的大脑一样会自动进入,它需要通过通道来进入系统,我们需要成立这样的机制,让这些数据能够为我们所用。最终数据也不是那么容易分析,把新的各种想法之间联系起来是很困难的,这是一个非常复杂的过程。”
也正是在这个背景下,为了更好地处理越来越多的数据,机器学习的春天也到来了。这门学问的流行需要三个因素,其中算法早已经成熟很多年,而云计算则赋予了它便宜的算力和海量的数据。
我曾经在一家很大规模的化工厂做过调研,他们的总工程师说,工业数据的存储和处理,他们有几台服务器处理绰绰有余,价格其实比上云更便宜,但是如果需要用机器学习来推进工艺流程优化,云计算就是不二的选择,因为机器学习的门槛实在太高,远远超过一个大型工业企业的能力。
就这样,企业上云的最大动力从“弹性计算+存储”,很快变成“智能+数据”。人工智能迅速成为企业破解复杂问题,应对不确定时代的救命稻草,而云就成为交付人工智能的最佳载体。随着数据战略成为越来越多企业的核心战略,比如2020年,BMW 数字化战略发布了“以客户为中心”、“用数据赋能”和“打造适应数字化进程的组织”的三大方向,“客户”、“数据”和“数字化”三大关键词赫然在列,他们将数据汇入 CDH (Cloud Data Hub) ,并且使用这些数据来监控车辆运行状况指标,例如检查控制错误以识别整个车系的潜在问题,进而更好地解决问题,甚至将问题解决在萌芽之时。
据亚马逊云科技提供的数据,在全球他们已助力超过150万客户成为数据驱动型企业。Swami 在发言中提到,亚马逊领导人意识到,数据经常是跟我们的直觉相反的,但是要完全依赖数据的分析,需要一整套数据策略,包括能够应对所有未来情况的技术策略,要考虑到未来数据种类、处理效率、可靠性和弹性;以及需要有组织把数据连接起来,第三,还需要好的工具来处理这些数据。
为了适应用户对于数据存储、分析,以及随后的机器学习等全新需求,云计算厂商必须要围绕着数据这个核心需求重构甚至创建出很多新的服务来。
也正是在这个大背景下,云计算中最受欢迎的也都是数据相关的服务,就像亚马逊云科技有史以来发展最快的服务第一是云原生关系数据库 Amazon Aurora,第二是云原生数仓 Amazon Redshift。
而机器学习的神奇效能和依然高高在上的使用门槛,也成为云计算技术创新的强大动力。在2017 亚马逊云科技re:Invent 全球大会上,托管式机器学习服务 Amazon SageMaker 面世,可以帮助开发者、数据科学家和业务分析师极大缩短准备数据,并大规模地构建、训练、部署高质量机器学习模型的时间。不意外的是,SageMaker 也成为亚马逊云科技有史以来增长速度最快的服务之一,五年时间,已有数以万计的客户利用 Amazon SageMaker 创建了数百万个模型,参数规模可达千亿级别,每月生成数千亿的预测结果。2021年,为了进一步推动机器学习的民主化,让更多用户能够接触到机器学习,亚马逊云科技在re:Invent 大会上发布了无代码机器学习工具 Amazon SageMaker Canvas。在 Amazon SageMaker 的帮助下,客户可以通过优化的基础设施将训练模型所需时间由数小时缩短至数分钟。
本次大会,我个人认为最值得关注两个发布,是端到端的数据治理工具——Amazon DataZone 和 Zero ETL 技术。DataZone 通过统一的数据分析门户提供所有数据的个性化视图,解决跨组织边界的数据大规模共享、搜索和发现问题。而 Zero ETL 主要解决的是在不同机器学习模型或不同应用之间提取、转换和加载(ETF是Extract、Transform、Load 三个词的缩写)数据的速度问题,需要结合 SageMaker 以及亚马逊的云原生数据库使用。
在本届 re:Invent 上,亚马逊云科技首席执行官 Adam Selipsky 和亚马逊云科技数据产品掌门人 Swami 在最重要的发布时段,发布的技术和服务大部分都与数据和机器学习相关,这其实也代表了某种趋势——当对传统IT技术的替代接近尾声的时候,针对数据创新的技术需求井喷才刚刚开始。
快速演化的云计算未来
而在两个趋势的背后,一个新问题又逐渐浮现出来。那就是短期内太多新技术和新需求的涌现,给用户带来极高的学习和实施门槛,这也是现在所谓“技术焦虑症”和“技术躺平派”出现的原因。所以未来如何降低云技术使用和部署的成本,实现技术普惠,也将是一个全新的挑战和机会。这个挑战,甚至比后台技术的竞争更加激烈,因为它距离客户更近,客户一旦广泛接受,更容易形成事实的后台技术标准。
亚马逊云科技对于这个挑战,给出的答案就是 Serverless。
“Serverless无服务器”术语最早出现在2012 年左右的一篇文章里,作者 Ken Fromm 对它的解释是:“Serverless无服务器”一词并不意味着不再涉及服务器,它只是意味着开发人员不再需要考虑那么多的物理容量或其他基础设施资源管理责任。通过消除后端基础设施的复杂性,无服务器让开发人员将注意力从服务器级别转移到任务级别。
2014年发布的 Amazon Lambda是业界首个 Serverless 函数计算服务,它让开发者可以运行几乎任何类型的应用程序或后端服务代码,无需预置或管理服务器,从而更专注自己的业务。Amazon Lambda 的推出,相当于对于云计算的资源和架构再次进行虚拟化和抽象,是云计算发展到一定阶段对自己的又一次革命,进一步把技术复杂性留给了后台,让用户更专心于业务问题的解决。
Serverless 开发是在云上实现生产想法的最快途径——它最大限度地提高了灵活性,同时降低了总体拥有成本,在re:Invent 2022上,亚马逊云科技首席执行官 Adam Selipsky 宣布了 Amazon OpenSearch Serverless(Preview),标志着亚马逊云科技已经在数据分析PaaS服务领域实现了数据仓库、大数据平台、流式数据分析的无服务器化,将整个数据 Serverless能力拓展到了全栈。而 Amazon.com 副总裁兼首席技术官 Werner Vogels 博士发布的 Application Composer,更是通过无代码的方式把这个学习曲线降至最低,实现人人可开发的Serverless。
云计算的渗透就像天平一样需要保持平衡——后台架构和数据技术发展越快,基于 Serverless 的技术普惠化就越重要。可以预见,Serverless 将是未来几年,云计算领域最值得关注的一个方向。在这个方向上,所有选手都必须全力以赴,谁也停不下来。
就像 Werner Vogels 博士在他的发言中所说的那样:你只能要么演变,要么死去。
根据《网络安全法》实名制要求,请绑定手机号后发表评论
重塑是每年亚马逊云科技峰会的关键词,也像是亚马逊云自己的基因
亚马逊云科技重塑这个技能真的是它长青的秘诀
面对不确定性发展的环境,企业如何更好更快更有效率的上云是一个有必要探讨的话题呀
写的很不错,关注了
值得期待,然前路仍漫漫