2024ITValue-文章详情顶部

面壁智能发布20亿开源端侧模型,称部分超越美国Llama 2能力|钛媒体焦点

公司CEO李大海对钛媒体App表示,未来行业发展很难预测,但他认为,随着时间推移,公司会有“分层”,大模型应用可能将会“百花齐放”,然而通用基座大模型可能只有极少数公司能“突出重围”。

国内 AI 大模型技术正加速演进。

钛媒体App获悉,今年2月1日,清华系 AI 公司“面壁智能”在北京发布会上推出20亿参数的开源端侧模型MiniCPM。

面壁智能表示,在多个主流评测榜单中,该模型中英文均分超过目前较为领先的欧洲Mistral-7B开源模型,而且在同等规模模型中,相比Llama 2-13B、甚至一些400亿参数级量级模型,面壁MiniCPM在代码、数学能力等方面也“毫不逊色”。该公司称,该模型支持消费级显卡如英伟达1080Ti参数微调,以及主流手机处理器端侧推理。

面壁智能联合创始人、CEO李大海表示,MiniCPM是迄今最强的旗舰端侧模型。而此次是面壁“大模型+Agent ”双引擎战略的关键一步。公司坚定认为智能体化是未来迈向通用智能的必由之路,而智能体必然要在端侧服务用户,面壁接下来会进一步探索Agent +云端协同的工作机制,实现智能赋能万物。

李大海向钛媒体App强调,公司正在和手机厂商商谈合作,在手机智能语音中内置MiniCPM是一个实用场景。

“目前面壁的整体商业收入来源主要是To B(企业)端,包括招商银行,西门子,易车网等标杆客户,场景集中在金融、营销等领域。”李大海对钛媒体App表示。
面壁智能CEO李大海

面壁智能CEO李大海

据悉,面壁智能成立于2022年8月,总部位于北京,公司深耕通用AI领域,专注大模型技术创新与应用转化。面壁已面向公众发布千亿多模态大模型对话助手“面壁露卡Luca”。截至目前,公司正规划构建Al Agent智能体协作平台。

面壁智能创始团队主要来自于清华大学自然语言处理实验室(THUNLP),公司CEO李大海还是知乎CTO(首席技术官);另一位公司联合创始人刘知远,则是清华大学计算机系副教授、博士生导师,研究方向为计算机自然语言处理;公司董事、CTO曾国洋为智源悟道·文源中文预训练模型团队骨干成员。

人才方面,据李大海介绍,截至目前,面壁智能科研团队有100多人,含清华、北大毕业的员工数量占比高达80%,平均年龄仅为28岁,而且工程团队还有来自阿里、字节、百度等国内外知名公司的 AI 人才。

李大海透露,他和刘知远教授的分工主要是,李大海全面负责公司战略层面的制定以及日常管理,刘知远更关注面壁智能的技术战略的中长期演进,以及模型训练、技术层面积累等方面。

融资方面,去年4月,面壁智能公开了一轮天使轮融资,由知乎领投,智谱 AI 为跟投方。

技术产品方面,To C消费端,面壁智能的基座模型产品“面壁露卡Luca”已获审批并对外开放,以及最新的一款 AI 移动应用“心间”。李大海表示,面壁MiniCPM、多模态开源模型OmniLMM等面壁B端技术产品,都是基于公司千亿级模型研发路线延伸,将淬炼化的大模型训练方法下放至小模型训练中,实现高效低成本模型训练与应用,面壁Agent产品也将会于今年陆续对外公布。

面壁团队认为,MiniCPM的市场竞争优势主要有三点:一、算法优化,自创“模型沙盒”实验,高效训模;二、成本优化,支持在CPU上跑推理、在消费级显卡上做高效训练与微调;三、数据治理,已经形成从数据治理到多维评测的闭环,牵引模型快速迭代。

对于MiniCPM的算力成本优化,李大海表示,MiniCPM背后主要是技术层面实现了全流程高效AI infra(推理框架)10倍推理加速,成本降低90%。

他在现场以演示的OPPO Find N3折叠屏手机为例,MiniCPM利用高通骁龙855芯片,成本约为600元,按运行5年计算,每秒7.5 tokens,那么170万 tokens 的推理成本仅需人民币1元,是欧洲开源模型Mistral-Medium的百分之一。另外,面壁正在就最近一两年上市的智能手机做测试,从而更广泛应用于移动设备中。

去年3月,欧洲开源模型Mistral-7B横空出世,以70亿参数打败了百亿参数的开源模型霸主Meta Llama 2,成为大模型领域“以小搏大”的典型案例。而面壁智能方面表示,新的MiniCPM模型仅用20亿参数规模、1T Tokens精选数据,中英文平均成绩均超越70亿参数的Mistral-7B,中文和通用能力超过微软明星模型Phi-2(蒸馏GPT-4)。

“端侧模型有全天候低成本的特点,云端协同更难更复杂。目前这一端侧模型能用同样数据达到远超同等云端模型效果,而且有更强的商业意义。”李大海解释面壁智能为何要做端侧模型。

清华大学计算机系长聘副教授、面壁智能联合创始人刘知远表示,他希望这个端侧模型能让更多人意识到,即便是20亿参数尺寸的模型,能达到的能力上限仍远超想象。就像造船舶和飞机有流体力学的支持,其团队致力于将大模型研究科学化,这是真正让它实现商业化与可持续发展的重要动力。
图左是李大海,图右是清华大学副教授、面壁智能联合创始人刘知远

图左是李大海,图右是清华大学副教授、面壁智能联合创始人刘知远

除了MiniCPM模型之外,面壁智能还在现场公布了120亿参数的多模态大模型面壁OmniLMM,目前是开源社区最强多模态模型之一,所有发布模型均已开源。

2月2日的群访交流中,李大海表示,目前面壁规划的MiniCPM商业化主要是一方面通过开源为行业做贡献、建立影响力。另一方面,MiniCPM也会在商业层面进行合作授权,由于单个模型成本、研发成本都比较低,可以用作更多行业模型的训练以及推理。

李大海透露,2024年,面壁将持续提升端侧大模型能力,同时依然会训练基座模型能力,去挑战GPT-4,“这是非常明确的”。另外,面壁还将用Agent来解决大模型落地的最后一公里,极大提升模型落地效率。

所谓Agent,就是在大语言模型(LLM)技术下,Agent可以理解为某种能自主理解、规划决策、执行复杂任务的智能体。用感知(Perception)、规划(Planning)和行动(Action)实现人的智能交互。OpenAI联合创始人Andrej Karpathy曾表示,“AI Agent代表着一个疯狂的未来。”目前,国内字节、面壁、智谱 AI 等企业都在投入 AI Agent技术产品研发当中。

“我对于我们的模型能力提升蛮有信心的,未来我将会更加关注模型的落地应用问题。”李大海表示,今年全行业将更重视应用落地,这是一个大的趋势。而面壁坚信,通用人工智能(AGI)是需要长期努力的目标,如同“马拉松比赛”一样,需要不断实现技术积累,以及更多更强的模型产品等。

谈及国内大模型行业“百模大战”之后的发展趋势,李大海表示,尽管很难预测未来行业发展,但他认为,随着时间推移,公司会有“分层”,大模型应用可能会“百花齐放”,然而通用基座(千亿)大模型不会太多,可能只有极少数的几家公司最终能“突出重围”。

“回到行业格局上来看,我们去回顾历史上每一次技术浪潮,和每一次行业机会,其实都会诞生出这个技术浪潮对应的原生公司,并且成为伟大的公司。AI 大模型本身既是产品,又是技术。而作为一个技术,现在但凡和大模型沾边的公司都声称在做大模型,但我认为,这并不应该把它分类到大模型公司,更多还是某个场景的应用落地。我相信,逐步有些公司会更多往‘应用层’去发展,然而,我们相信,基座类型的大模型公司不会太多,虽然不会只有一家,但具体是几家我们也不清楚,这个是很难预测的一件事情。”李大海对钛媒体App表示。

李大海在演讲中强调,面壁智能在大模型能力上有很深厚的技术积累。未来,面壁希望发挥一定优势,推动行业迈向 AGI 的速度快一些,使得 AGI 技术让人们生活变得更好。

(本文首发钛媒体App,作者|林志佳)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 面壁智能发布20亿开源端侧模型minicpm,体现了开源精神

    回复 2月7日 · via android
  • 商业收入主要来自to b端

    回复 2月7日 · via h5
  • 智能体化是迈向通用智能的必由之路

    回复 2月6日 · via h5

快报

更多

2024-09-21 22:58

币安创始人赵长鹏确认即将出狱

2024-09-21 22:27

我国发布全球首个百亿级遥感解译基础模型

2024-09-21 21:45

我国成立首个国家卓越工程师实践基地

2024-09-21 21:04

AIGC产业联盟在京成立,推动AI生成内容技术创新与应用

2024-09-21 20:36

巴菲特继续抛售美国银行,2个月减持近81亿美元

2024-09-21 20:24

推进城中村改造迈出更大步伐,陈吉宁龚正在城中村改造工作推进会上作部署

2024-09-21 20:03

9月21日新闻联播速览20条

2024-09-21 19:34

汽车零部件供应商博世CEO:尚未排除关闭德国北部Hildesheim电动汽车工厂的可能性

2024-09-21 19:01

马斯克旗下社交平台X任命巴西法律代表

2024-09-21 18:47

杨勇平任兰州大学校长

2024-09-21 18:22

签约金额超600亿,京港洽谈会今日闭幕

2024-09-21 18:16

上海市委常委会审议通过《关于优化投资促进机制加强招商和服务一体化推进的实施方案》

2024-09-21 17:40

我国著名航空发动机专家刘松龄逝世

2024-09-21 17:04

深交所迎来西南地区首单消费REITs,中邮保险成为最大外部战配投资者

2024-09-21 17:01

乘联会崔东树:全国乘用车市场8月末库存315万台、库存46天

2024-09-21 16:51

市场监管总局:严查侵权网店、直播带货假冒商品,淘宝拼多多等81家平台签署自律公约

2024-09-21 16:33

同比增长19.08%,2023年我国数字出版产业达16179.68亿元

2024-09-21 16:01

中国贸促会副会长于健龙会见英中贸易协会首席执行官彼得·博内特

2024-09-21 15:50

打击资本市场“小作文”,三名造谣者被罚

2024-09-21 15:42

江苏:全省临床检验结果将逐步实现线上共享互认

3

扫描下载App