Snowflake的市值已经突破800亿美元,较去年120美元/股的发行价,Snowflake股价已经涨近150%。这让云上数仓成为近一年来资本加倍关注的对象。
实际上,不止是云上数仓( the cloud-based data warehouse),Snowflake的大火也让资本的目光更多地投到了能在数字化转型浪潮中发挥重要作用、与“数据”有关的其他生意。比如在今年6月份,图数据库(Graph Database )公司Neo4j入账的一笔高达3.25亿美元的F轮融资,被称为数据库史上最大的一笔投资,领投方为有着140多年历史的投资集团Eurazeo ,原谷歌风投Google Ventures(GV)也参与其中。
Neo4j估值随即涨到20亿美元。Neo4j联合创始人兼CEO Emil Eifrem 将这描述为数据库市场的一个转折点。外媒评论表示:“这会成为下一个‘Snowflake’吗?”
从图数据库当下发展的势头来看,Neo4j成为下一个“Snowflake”也不是没有可能。只不过,两者存在共性的同时,他们之间更多应被关注的是从产品到服务场景上的诸多不同。
云上数仓与图数据库
区别云上数仓Snowflake与图数据库Neo4j在业务上的不同,可以从其商业模式及产品应用场景来看。
Snowflake在商业模式上的创新,一方面是帮助企业实现了数仓按需上云,其数仓的底层可对接AWS、谷歌云等主流云计算平台供客户选择;另一方面,实现了存储与计算分离,在资源管理上更为精细化。
现阶段,企业之所以对云上数仓需求在逐年增长,很大原因在于企业在业务发展过程中逐步积累了大量数据,同时企业“数据驱动决策”的观念也逐步觉醒。
企业业务数据要反哺决策,需要经过数仓流转。从技术层面理解,业务数据库是为数据快速读写服务的,比如电商平台用户进入业务系统需要读取商品信息,下单后再在系统写入信息,这个过程对系统可用性要求极其高;而服务数据决策的数据库却同这个逻辑有很大不同,它不需要频繁读写,而是要求对数据进行只读的查询和分析。
企业数据规模不大的时候,在业务数据库中查询和分析,系统还能承载;一旦企业数据进入一定规模,如果两个数据库不能各司其职,就会拖慢整个系统的运行效率,而且还会存在风险。这也是为什么业务数据系统与数据决策系统从技术架构和运行逻辑上都需要单独的系统来针对性解决不同问题的重要原因。
在这个大趋势下,Snowflake凭借其在商业模式上的创新,顺利站上了风口。
Neo4j的图数据库也正是如此。Gartner在《2021十大数据与分析技术趋势》一文中断言:“到 2025 年,图技术(graph technologies)将用于 80% 数据与分析的创新,这一数据高于 2021 年的 10%,图技术将会促进整个组织的快速决策。”
与Snowflake使用SQL数据库(关系型数据库)不同,Neo4j的图数据库实际上是NoSQL(非关系型数据库)。Snowflake使用了新型的关系型数据库引擎、主力解决的是企业数据反哺业务决策的问题,而Neo4j的图数据库则主要解决的是数据关系问题:在Neo4j发布的一份《图数据库技术十大案例》中,详细介绍了图数据库的几大应用场景,分别是欺诈检测、实时推荐引擎、知识图谱、反洗钱等。
不过这里最值得强调的是,除了以上场景,利用数据之间的关系,图数据库还可以解决企业的主数据管理(MDM)问题——这是企业数据化转型过程中,较为关键的一环。
主数据管理,为什么是图数据库?
前两年,数据中台一词风靡中国。直至现在,诸多中大型企业以及技术服务商也都没少在数据中台上做文章。因为数据中台如果被正确地落地,确实会解决企业中实际存在的数据孤岛问题。
但当这一概念被翻译成英文,国外的技术专家们都对此毫无了解。在数据库市场摸爬滚打了十几年的Neo4j亚太区副总裁Nik Vora也是如此。“我确实不太知道这个。”Vora在与钛媒体App交流时坦言。
但这并不代表这个具有中国特色的概念在国外没有对应的实践——语言文化有不同,但技术是无国界的。所以当Neo4j的图数据库案例中出现了“主数据管理”,就印证了这一判断。
什么是主数据管理呢?Neo4j认为,企业的营销数据、客户关系管理数据、客户服务数据、电商数据、物流数据、财务数据等这些企业业务主链条上的数据都可以归为主数据。对企业来讲,主数据之所以管理困难,是因为他们存储在不同的位置,不仅有大量的重叠和冗余,还会采用不同格式且质量参差不齐。
为了解决主数据管理上存在的问题,企业们有的将所有主数据合并到一个位置(比如数仓),有的则通过部署一个服务或应用对数据资产进行管理并实现方便的访问(比如Neo4j的图数据库),有的则采用了混合解决方案。
“图数据库是建模、存储和查询主数据中的层级、元数据和连接的理想选择。”Neo4j的文件中显示。并且这种方式所需资源(建模人员、 架构师、DBA和开发人员)更少,企业不必将所有主数据迁移到一个位置。图数据库可以轻松关联CRM系统、库存系统、财务和销售点系统之间的孤立数据,提供企业数据的统一视图。
从这个角度看,Snowflake的云上数仓同Neo4j的图数据库在某种程度上都能服务于企业“数据中台”的建设,他们是企业数据中台的一体两面。只不过前者更倾向于数据决策,后者则更倾向于业务的数据连接。
至于两者是否会存在替代关系,Vora对钛媒体App强调:“两者没有谁代替谁的问题,针对不同的应用场景。”
“希望有机会跟中国云服务商合作”
近来,随着中国数字化转型进程的加速,图数据库在中国的应用前景也被打开。这是Neo4j比较看中的。
Vora对钛媒体App透露,目前,Neo4j的开源版和商业版在中国都有采用,自2018年起Neo4j就开始活跃在中国市场。当前已在计划积极扩建中国团队。“在图数据库的采用上,中国已经非常成熟并且领先世界。加上中国企业的数字化转型,中国企业采用图数据库的比例也在不断上升。”Vora表示。
不过,钛媒体App查询亚马逊云科技(前身为“AWS中国”)、阿里云、腾讯云等中国较为活跃的公有云服务商发现,图数据库产品都是其云计算产品中的一个。也就是说,在图数据库这个单一市场中,公有云服务商有可能成为Neo4j直接的竞争对手。
对此,Vora认为,阿里云、腾讯云这些公有云服务商的强项还是在于云计算基础资源,但在特定领域他们有可能并不是最强的,他们也需要某一领域专业的合作伙伴共同构建生态。“从我们的角度来说,我们也希望能与他们合作,在他们的云上提供我们的解决方案。”
在国际调研机构Forrester的2020年Q4的一份图数据库报告中,Neo4j的图数据库能力优于AWS、微软等综合性云计算服务商,处于全球第一。来自中国的阿里云在图数据能力虽然站到了全球领先的地位,但同Neo4j的图数据库能力相比,还有很大的差距。这或许也是为什么 Vora认为双方存在合作的可能。
“过去3年,Neo4j已在中国建立了良好的客户基础。未来我们会拓展与云服务提供商的合作。在未来12个月,你会看到我们有相关的计划和举措出台。”Vora为双方的合作计划提供了一个限定的时间点。
当前,Neo4j在中国的本地化已经有了长远的发展计划,包括合作伙伴网络的扩张等等。其中,最大的本地化是社区和开发者的培养。钛媒体App了解到,Neo4j已经有专人负责在中国社区开发,正在与中国开发者和学生保持密切的联系。
未来已来。用Eifrem 的话说,数据库已经成为企业软件市场最大的组成部分,而新一代数据库引领了这一市场的快速增长,它们正在以前所未有的方式应对当今企业在数据上的挑战。
(本文首发钛媒体App,作者 | 秦聪慧)
根据《网络安全法》实名制要求,请绑定手机号后发表评论