2024T-EDGE文章详情顶部

国内首个与ChatGPT不同机制的通用大模型发布,算力消耗缩减50%

刘凡平透露,接下来岩芯数智将打造全模态实时人机交互系统,全面打通感知、认知、决策与行动,构建AGI的智能循环体,为通用机器人等具身智能方向的研究提供大模型基础底座的“更多选择”。

岩芯数智CEO刘凡平

岩芯数智CEO刘凡平(来源:钛媒体App编辑)

钛媒体App获悉,1月24日下午,国内AIGC企业上海岩芯数智人工智能科技有限公司(岩芯数智,RockAI)在上海发布了国内首个自研的非Transformer Attention机制的低算力通用自然语言大模型——Yan模型,记忆能力提升3倍、速度提升7倍,推理吞吐量提升5倍。

这是国内首个发布的与ChatGPT不同机制的通用大模型,参数规模达百亿。该公司称,这是用百亿级参数达成千亿参数大模型的性能效果。

岩芯数智CEO刘凡平表示,“在全球范围内,一直以来都有不少优秀的研究者试图从根本上解决对 Transformer架构的过度依赖,寻求更优的办法替代 Transformer。历经超过几百次的设计、修改、优化、对比、重来后,岩芯数智自主研发出了不再依赖Transformer的全新架构——‘Yan架构’,同时,基于Yan架构的低算力通用大模型应运而生。我们期望Yan架构可作为 AI 领域的基础设施,并以此建立AI领域的开发者生态,最终让任何人在任何设备上都能使用通用大模型,获取更加经济、便捷、安全的AI服务。”

据悉,成立于2023年6月的岩芯数智,是A股上市公司岩山科技(002195.SZ)旗下宣布拥抱AIGC新浪潮、向数智化转型并更名后成立的新公司,专注于打造为百业赋能的一站式AIGC数智化服务平台。而岩芯数智的团队则于2022年在内部组建。

Yan模型是岩芯数智最新自研的百亿级参数模型,主要针对To B行业领域,目前公司已提供多种场景的解决方案。例如RockAI模型大脑可以让企业拥有私域的知识大模型,实现跨文档知识整合、实时信息记录,可用于银行金融、政务办公等。

Yan模型的最大特点,是采用非Transformer Attention(注意力)机制。据悉,包括火热的ChatGPT、BERT等大模型,普遍采用Transformer基础架构,而Attention机制区别于CNN技术,是通过参数和大数据利用算力训练形成的技术体系,则根据应用场景的不同而输出不同信息,通俗来说是把注意力集中放在重要的点上而忽略其他不重要的因素。Attention主要分为空间注意力和时间注意力,前者用于图像处理,后者用于自然语言处理。

刘凡平此前对钛媒体App表示,他们在对Transformer模型不断的调研和改进过程中,意识到了重新设计大模型的必要性:一方面,在Attention机制下,现有架构的调整几乎已经达到瓶颈;另一方面,岩芯数智更期望降低企业对大模型的使用门槛,让大模型在更少的数据、更低的算力下具备更强的性能,以应用于更广泛的业务。因此,岩芯数智希望研发非Transformer架构模型。

(详见钛媒体App前文:《独家对话岩芯数智CEO刘凡平:“百模大战”下,AIGC新玩家如何杀出重围?》

据介绍,相比Transformer架构的模型,Yan模型算力消耗缩减50%、推理效率提升7倍、准确率提高3倍、推理吞吐量提升5倍。针对长序列环境,在单张4090 24G显卡上,当模型输出token的长度超出2600时,Yan模型显存使用始终稳定在14G左右,理论上能够实现无限长度的推理,而Transformer模型会出现显存不足。

此外,Yan模型也同时具备私密化、经济化、精准化和实时性、专业性、通用性等六个商业化落地能力。而且,该团队首次研发了一种合理的关联特征函数和记忆算子,可降低模型内部结构的复杂度,发掘决策过程的透明度和可解释性,从而助力全新架构下的Yan模型在医疗、金融、法律等领域的广泛运用。

刘凡平透露,接下来岩芯数智将打造全模态实时人机交互系统,全面打通感知、认知、决策与行动,构建通用人工智能(AGI)的智能循环体(类似于Agents),为通用机器人等具身智能方向的研究提供大模型基础底座的“更多选择”。他强调,通过提供基于Yan架构的专业生产力工具,实现端侧训练、训推一体,推动企业数智化发展。

岩芯数智董事长陈代千表示,随着Yan模型的进一步落地和应用,未来公司将为机器人、嵌入式设备、物联网设备等领域提供所需的智能化能力,为企业和用户创造更多的价值。

(本文首发钛媒体App,作者|林志佳)

 

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 看来国内企业在自然语言处理方面已经具备了相当的技术实力

    回复 1月27日 · via pc
  • Yan模型的发布意味着国内AIGC企业在自然语言处理领域取得了重要的进展

    回复 1月26日 · via pc
  • Transformer模型是目前自然语言处理领域最先进的模型之一,但它的计算复杂度较高,对算力要求较大

    回复 1月26日 · via iphone
  • 这不仅降低了模型训练和推理的成本,也有助于推动人工智能技术的普及和应用

    回复 1月25日 · via pc

AWARDS-文章详情右上

快报

更多

2024-11-16 22:44

嘉实基金和平安基金相继宣布与普华永道解约,涉及378只基金

2024-11-16 22:30

超30000公里,中国图迈机器人远程手术再获突破

2024-11-16 22:29

李庚希凭电影《我们一起摇太阳》获第37届金鸡奖最佳女主角

2024-11-16 22:12

百亿级股票私募仓位指数创今年以来单周加仓幅度最高纪录

2024-11-16 21:30

挪威地产大亨、亿万富翁Olav Thon离世,享年101岁

2024-11-16 20:51

山东对8类家电开展以旧换新,最高可享受补贴1.6万元

2024-11-16 20:43

深圳计划鼓励并购重组,已经起草征求意见稿

2024-11-16 20:39

日本青森县陆奥湾发生4.6级地震

2024-11-16 20:20

北京加快存量数据中心提质升级

2024-11-16 20:17

以太坊站上3200美元/枚,日内涨3.56%

2024-11-16 20:16

11月16日新闻联播速览22条

2024-11-16 19:56

智己汽车与Momenta、英伟达官宣合作,打造行业首批索尔(Thor)芯片量产智驾方案

2024-11-16 19:44

工业和信息化部:深入实施医药工业数智化转型行动,培育世界一流医药企业

2024-11-16 19:43

国家卫生健康委:以重大科技项目和政策协同为抓手,力争在重大原创性成果产出等方面全面提升

2024-11-16 19:22

杨植麟:kimi每月用户规模达到3600万

2024-11-16 19:19

海南旅游市场升温,今年前10月三大机场进港旅客逾两千万人次

2024-11-16 19:04

David Tepper:中国股票仓位接近四成

2024-11-16 18:47

李家超与多位东盟国家领导人会面,望支持香港尽早加入RCEP

2024-11-16 18:16

中蒙边境一日游线路恢复

2024-11-16 18:13

我国首座大型浮式天然气液化装置(FLNG)基本建成

4

扫描下载App