2024T-EDGE文章详情顶部

李开复创立的零一万物宣称,自研向量数据库领先原榜单第一名的286%|钛媒体AGI

相比传统向量数据库PQ查表,笛卡尔向量数据库的性能得到大幅提升到2-3倍。

钛媒体App 3月11日消息,李开复博士创立的零一万物宣布,公司成功研发出基于全导航图的新型向量数据库 “笛卡尔(Descartes)”,并已包揽权威榜单ANN-Benchmarks 6项数据集评测第一名。

零一万物表示,在国际权威评测平台ANN-Benchmarks离线测试中,零一万物笛卡尔向量数据库比之前榜单上同业第一名有显著性能提升,部分数据集上的性能提升甚至超过2倍以上,在gist-960-euclidean数据集维度更大幅领先榜单原TOP1 286%。

零一万物强调,笛卡尔向量数据库将应用于公司即将正式发布的 AI 产品中,未来还将结合工具提供给广大开发者。

据悉,零一万物(01.AI)成立于2023年5月16日,致力于打造全新的 AI 2.0 平台与AI-first生产力应用的全球化公司,由创新工场董事长兼CEO李开复博士亲自挂帅,担任零一万物CEO。

2023年中关村论坛上,李开复就对钛媒体App等表示,以GPT-4等大模型为代表的生成式 AI 热度在全球蔓延,意味着AI 2.0时代已经到来,它将带来比移动互联网时代大十倍的机会,穿透各行各业极大地提振生产力。“我们预测,全新的 AI 2.0平台将能有效帮助提升人类生产力,创造巨大的经济价值及社会价值。”

2023年11月,零一万物发布首款研发的最强开源 AI 大模型系列“Yi”,包括Yi-6B(数据参数量为60亿)、Yi-34B(340亿)两款,均是双语(英文/中文)、支持开源。

其中,Yi-34B模型在多项评测基准中全球领跑,基于超强Infra下模型训练成本实测下降40%,模拟千亿规模训练成本可下降多达50%,并以更小模型尺寸的基准结果超过LLaMA2-34B/70B、Falcon-180B等大尺寸开源模型,以及百川智能(王小川创立)的Baichuan2-13B。

“随着团队到位,2023年6、7月份开始写第一行代码,短短四个月做了非常自豪的产品。我们是‘不鸣则已,一鸣惊人’。所以‘一鸣惊人’之后,如果我们过半年甚至过一年回头看,今天对我们来说只是刚刚开始,我们还会不断的去开发、推动、宣布更多令人惊艳的成果。”李开复当时表示。

此次公布的向量数据库,又被称为AI时代的信息检索技术,是检索增强生成(RAG)内核技术之一。随着大模型为代表的AI 2.0时代到来,图片、视频、自然语言等多模态的非结构化数据量陡增。区别于传统数据库,向量数据库专门用来存储、管理、查询和检索向量化的非结构化数据,而ChatGPT模型进一步强化了向量数据库的作用。

截至目前,Google、微软、Met 等大厂的相关向量大模型产品先后问世,Zilliz、Pinecone、Weaviate、Qdrant等创业公司也异军突起。2023年,OpenAI的向量数据库合作方Pinecone完成了B轮1.38亿美元融资,国内初创企业Fabarta ArcNeural也完成了上亿元Pre-A轮融资。

如今,李开复带领的团队也自主研发出全新的向量数据库。

具体来说,零一万物笛卡尔主要聚焦于高性能向量数据库,采用领先的全导航图技术、首创自适应邻居选择策略等新功能,以及采用了两级量化方案增强RAG,在处理复杂查询、提高检索效率、优化数据存储方面相比业界拥有显著的比较优势。另外,零一万物还采用索引结构优化、连通性保障等全栈向量技术方案,从而提高笛卡尔向量数据库的性能。

以电商推荐场景为例。上架商品数量可能千万级,每个商品可以由一个向量表达,即使库中向量数不算很大,如果电商用户基数非常庞大,高峰时每秒用户请求数非常大,可能达到几十万甚至上百万的吞吐量QPS(每秒内处理的请求数),使用高性能向量数据库可以有效提升电商场景里面搜索、广告业务的推荐效果,促进销售额增长。

零一万物表示,笛卡尔拥有超高精度、超高性能两个优点:一、超高精度,基于多层缩略图和坐标系实现层间导航和图上方位导航,以及图连通性保障,实现精度大于99%,相同性能下,精度大幅领先业内水平;二、超高性能,高效的边选择和裁剪技术,千万数据库ms(秒级)响应。

该公司指出,在两级量化降低计算复杂方面,相比传统PQ查表,笛卡尔向量数据库的性能得到大幅提升到2-3倍;目标向量层面,笛卡尔让RAG向量检索性能提高15%-30%,从而帮助企业客户构建私域知识库、智能客服系统;在自动驾驶领域,使用高性能向量数据库可来加速自动驾驶模型训练等。

基准测试层面,在glove-25-angular、glove-100-angular、sift-128-euclidean、nytimes-256-angular、fashion-mnist-784-euclidean、gist-960-euclidean六大数据集中,零一万物笛卡尔向量数据库在6项数据集评测中都处于最高位。

零一万物强调,笛卡尔向量数据库是团队基于RAG的初步尝试,将在近期发布的AI生产力产品中得到有效应用。未来各家大模型优化到一定程度后,向量数据库的能力可能决定各家大模型的天花板。零一万物后续会持续专注研发和分享,为用户带来更好的技术和体验。

“零一万物的数据处理管线、算法研究、实验平台、GPU资源和 AI Infra 都已经准备好,我们的动作会越来越快”。李开复表示,零一万物希望有更多的开发者使用Yi系列模型,打造自己场景中的“ChatGPT”,引领下一代前沿创新和商业模型,探索走向通用 AI 时代。

钛媒体App了解到,零一万物即将推出基于 AI 2.0 的超级应用产品。

(本文首发钛媒体App,作者|林志佳)

 

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

AWARDS-文章详情右上

快报

更多

2024-11-16 22:44

嘉实基金和平安基金相继宣布与普华永道解约,涉及378只基金

2024-11-16 22:30

超30000公里,中国图迈机器人远程手术再获突破

2024-11-16 22:29

李庚希凭电影《我们一起摇太阳》获第37届金鸡奖最佳女主角

2024-11-16 22:12

百亿级股票私募仓位指数创今年以来单周加仓幅度最高纪录

2024-11-16 21:30

挪威地产大亨、亿万富翁Olav Thon离世,享年101岁

2024-11-16 20:51

山东对8类家电开展以旧换新,最高可享受补贴1.6万元

2024-11-16 20:43

深圳计划鼓励并购重组,已经起草征求意见稿

2024-11-16 20:39

日本青森县陆奥湾发生4.6级地震

2024-11-16 20:20

北京加快存量数据中心提质升级

2024-11-16 20:17

以太坊站上3200美元/枚,日内涨3.56%

2024-11-16 20:16

11月16日新闻联播速览22条

2024-11-16 19:56

智己汽车与Momenta、英伟达官宣合作,打造行业首批索尔(Thor)芯片量产智驾方案

2024-11-16 19:44

工业和信息化部:深入实施医药工业数智化转型行动,培育世界一流医药企业

2024-11-16 19:43

国家卫生健康委:以重大科技项目和政策协同为抓手,力争在重大原创性成果产出等方面全面提升

2024-11-16 19:22

杨植麟:kimi每月用户规模达到3600万

2024-11-16 19:19

海南旅游市场升温,今年前10月三大机场进港旅客逾两千万人次

2024-11-16 19:04

David Tepper:中国股票仓位接近四成

2024-11-16 18:47

李家超与多位东盟国家领导人会面,望支持香港尽早加入RCEP

2024-11-16 18:16

中蒙边境一日游线路恢复

2024-11-16 18:13

我国首座大型浮式天然气液化装置(FLNG)基本建成

扫描下载App