2024T-EDGE文章详情顶部

RAG 架构+向量数据库,高效构建企业级智能知识库应用 | 创新场景

为了打通西门子中国内部的知识孤岛,运用生成式 AI 推进组织数字化转型,西门子携手亚马逊云科技在3个月内轻松构建了基于 Amazon SageMaker、Amazon EKS、Amazon RDS、Amazon S3、Amazon OpenSearch Service 等产品开发的智能对话机器人“小禹”,为企业内部提供了更优秀的产品功能与体验,在生成式 AI 领域迈出可喜的一步。

场景描述

运用新兴科技更好地发掘数据价值,是西门子中国持续发力的方向。西门子中国大禹团队应用大数据技术、机器学习、云技术、低代码来组建数据分析系统,专注于创新领域,借助 AI 能力更好地发挥数据的价值。

在构建知识库的过程中,大禹团队通过调研认识到,长期以来企业内部资源的检索和调用都存在结构散乱、检索速度慢、交互不便等问题。由于横跨多个不同领域、涉及多个不同业务单元,如若以传统方式打造知识库,这些问题将一直是横亘在部门间的长久之痛。因此,大禹团队决定将大数据库和生成式 AI 应用于一个全新的“智能知识库”,从根本上提升知识库的可用性。

解决方案

由于公司体量庞大,智能数据库的构建需面向多个不同业务部门,势必涉及大量的业务数据和文本数据。因此,智能知识库的存储架构,成为亚马逊云科技为西门子设计智能知识库时的首要考虑。

智能知识库的架构设计,实质上是大语言模型(LLM,Large Language Model)在知识检索领域如何得到充分利用的问题。亚马逊云科技决定采取检索增强生成(RAG,Retrieval Augment Generation)方式增强模型,使之具有来自存档知识源的增强上下文的模型架构。

最终亚马逊云科技为大禹团队提供的,是一个智能知识库暨智能会话机器人的解决方案指南,其中包括预训练大语言模型,Amazon OpenSearch Service 的向量数据服务,以及相关系统集成等。该解决方案指南具备自然语言处理能力、知识库检索能力、甚至是以数据去训练大语言模型的能力,这些核心关键能力让解决方案指南能实现目标知识库约 80% 功能,西门子中国根据企业内部需求再做 20% 定制化开发,最终形成完整的解决方案。

其中,最大的亮点在于“RAG 架构+向量数据库”设计:

•核心主体知识库以向量方式构建,能够存储超大规模的向量数据。通过对数据进行向量嵌入处理,跨部门、跨业务、跨场景的数据之间也能够进行关系考量。而 Amazon OpenSearch Service 的 k 近邻(kNN)插件为它提供了核心向量数据库功能,现在向量嵌入可以与单个混合请求中基于文本的关键字组合,查询时在几毫秒内就可获得数十亿向量的上下文相关响应。

•另一方面,RAG 架构极大地拓展了大模型的可用性。普通情况下当知识库新增内容时,相应的大模型必须进行微调,甚至是重新训练。而 RAG 允许对新增部分使用相同的模型处理,无需调整模型。这就相当于知识库在不影响访问速度的前提下,拥有了近乎无限的可扩展性。由向量数据库保障的杰出性能,再加上 RAG 架构提供的无限潜力,这就是智能会话机器人“小禹”能够在用户以简单语言进行提问的前提下,快速反馈生成式回答的秘密。

Amazon SageMaker 也为架构的伸缩性以及大语言模型持续迭代提供了很大帮助。借助 SageMaker Endpoint 的弹性伸缩能力,系统可以自动按照负载调整用于实时推理的资源,保证访问需求的同时提升整体性价比。Amazon SageMaker 上提供了丰富的模型开发和训练工具,保证客户可以在云端轻松实现大语言模型的调优以及测试更多不同类型的开源模型。

成效

相对于传统机器人,“小禹”智能会话机器人的回答内容不仅生成速度更快,其对搜索关键词的命中率也更高,整体使用体验远超传统机器人。西门子中国专属智能知识库上线后,首周就有超过 4000 位内部用户参与使用,超过 12000 个问题被提出并解答。作为智能知识库,它不但解决了各业务部门之间需求相似、重复开发的问题,更以云上弹性资源和托管的 Amazon OpenSearch Service 、Amazon SageMaker 等服务节约了系统在运维和扩展方面的投入成本。

本文系作者 亚马逊云科技 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 知识库构建不性感,但可能是大企业开始大规模应用AI的最可行、也见效最快的场景

    回复 9月6日 · via miniapp_iphone
  • 数据架构和治理是实现数字化和智能化的基础

    回复 9月4日 · via miniapp_android

AWARDS-文章详情右上

快报

更多

2024-11-16 22:44

嘉实基金和平安基金相继宣布与普华永道解约,涉及378只基金

2024-11-16 22:30

超30000公里,中国图迈机器人远程手术再获突破

2024-11-16 22:29

李庚希凭电影《我们一起摇太阳》获第37届金鸡奖最佳女主角

2024-11-16 22:12

百亿级股票私募仓位指数创今年以来单周加仓幅度最高纪录

2024-11-16 21:30

挪威地产大亨、亿万富翁Olav Thon离世,享年101岁

2024-11-16 20:51

山东对8类家电开展以旧换新,最高可享受补贴1.6万元

2024-11-16 20:43

深圳计划鼓励并购重组,已经起草征求意见稿

2024-11-16 20:39

日本青森县陆奥湾发生4.6级地震

2024-11-16 20:20

北京加快存量数据中心提质升级

2024-11-16 20:17

以太坊站上3200美元/枚,日内涨3.56%

2024-11-16 20:16

11月16日新闻联播速览22条

2024-11-16 19:56

智己汽车与Momenta、英伟达官宣合作,打造行业首批索尔(Thor)芯片量产智驾方案

2024-11-16 19:44

工业和信息化部:深入实施医药工业数智化转型行动,培育世界一流医药企业

2024-11-16 19:43

国家卫生健康委:以重大科技项目和政策协同为抓手,力争在重大原创性成果产出等方面全面提升

2024-11-16 19:22

杨植麟:kimi每月用户规模达到3600万

2024-11-16 19:19

海南旅游市场升温,今年前10月三大机场进港旅客逾两千万人次

2024-11-16 19:04

David Tepper:中国股票仓位接近四成

2024-11-16 18:47

李家超与多位东盟国家领导人会面,望支持香港尽早加入RCEP

2024-11-16 18:16

中蒙边境一日游线路恢复

2024-11-16 18:13

我国首座大型浮式天然气液化装置(FLNG)基本建成

2

扫描下载App