国内 AI 大模型技术正加速演进。
钛媒体App获悉,今年2月1日,清华系 AI 公司“面壁智能”在北京发布会上推出20亿参数的开源端侧模型MiniCPM。
面壁智能表示,在多个主流评测榜单中,该模型中英文均分超过目前较为领先的欧洲Mistral-7B开源模型,而且在同等规模模型中,相比Llama 2-13B、甚至一些400亿参数级量级模型,面壁MiniCPM在代码、数学能力等方面也“毫不逊色”。该公司称,该模型支持消费级显卡如英伟达1080Ti参数微调,以及主流手机处理器端侧推理。
面壁智能联合创始人、CEO李大海表示,MiniCPM是迄今最强的旗舰端侧模型。而此次是面壁“大模型+Agent ”双引擎战略的关键一步。公司坚定认为智能体化是未来迈向通用智能的必由之路,而智能体必然要在端侧服务用户,面壁接下来会进一步探索Agent +云端协同的工作机制,实现智能赋能万物。
李大海向钛媒体App强调,公司正在和手机厂商商谈合作,在手机智能语音中内置MiniCPM是一个实用场景。
“目前面壁的整体商业收入来源主要是To B(企业)端,包括招商银行,西门子,易车网等标杆客户,场景集中在金融、营销等领域。”李大海对钛媒体App表示。
据悉,面壁智能成立于2022年8月,总部位于北京,公司深耕通用AI领域,专注大模型技术创新与应用转化。面壁已面向公众发布千亿多模态大模型对话助手“面壁露卡Luca”。截至目前,公司正规划构建Al Agent智能体协作平台。
面壁智能创始团队主要来自于清华大学自然语言处理实验室(THUNLP),公司CEO李大海还是知乎CTO(首席技术官);另一位公司联合创始人刘知远,则是清华大学计算机系副教授、博士生导师,研究方向为计算机自然语言处理;公司董事、CTO曾国洋为智源悟道·文源中文预训练模型团队骨干成员。
人才方面,据李大海介绍,截至目前,面壁智能科研团队有100多人,含清华、北大毕业的员工数量占比高达80%,平均年龄仅为28岁,而且工程团队还有来自阿里、字节、百度等国内外知名公司的 AI 人才。
李大海透露,他和刘知远教授的分工主要是,李大海全面负责公司战略层面的制定以及日常管理,刘知远更关注面壁智能的技术战略的中长期演进,以及模型训练、技术层面积累等方面。
融资方面,去年4月,面壁智能公开了一轮天使轮融资,由知乎领投,智谱 AI 为跟投方。
技术产品方面,To C消费端,面壁智能的基座模型产品“面壁露卡Luca”已获审批并对外开放,以及最新的一款 AI 移动应用“心间”。李大海表示,面壁MiniCPM、多模态开源模型OmniLMM等面壁B端技术产品,都是基于公司千亿级模型研发路线延伸,将淬炼化的大模型训练方法下放至小模型训练中,实现高效低成本模型训练与应用,面壁Agent产品也将会于今年陆续对外公布。
面壁团队认为,MiniCPM的市场竞争优势主要有三点:一、算法优化,自创“模型沙盒”实验,高效训模;二、成本优化,支持在CPU上跑推理、在消费级显卡上做高效训练与微调;三、数据治理,已经形成从数据治理到多维评测的闭环,牵引模型快速迭代。
对于MiniCPM的算力成本优化,李大海表示,MiniCPM背后主要是技术层面实现了全流程高效AI infra(推理框架)10倍推理加速,成本降低90%。
他在现场以演示的OPPO Find N3折叠屏手机为例,MiniCPM利用高通骁龙855芯片,成本约为600元,按运行5年计算,每秒7.5 tokens,那么170万 tokens 的推理成本仅需人民币1元,是欧洲开源模型Mistral-Medium的百分之一。另外,面壁正在就最近一两年上市的智能手机做测试,从而更广泛应用于移动设备中。
去年3月,欧洲开源模型Mistral-7B横空出世,以70亿参数打败了百亿参数的开源模型霸主Meta Llama 2,成为大模型领域“以小搏大”的典型案例。而面壁智能方面表示,新的MiniCPM模型仅用20亿参数规模、1T Tokens精选数据,中英文平均成绩均超越70亿参数的Mistral-7B,中文和通用能力超过微软明星模型Phi-2(蒸馏GPT-4)。
“端侧模型有全天候低成本的特点,云端协同更难更复杂。目前这一端侧模型能用同样数据达到远超同等云端模型效果,而且有更强的商业意义。”李大海解释面壁智能为何要做端侧模型。
清华大学计算机系长聘副教授、面壁智能联合创始人刘知远表示,他希望这个端侧模型能让更多人意识到,即便是20亿参数尺寸的模型,能达到的能力上限仍远超想象。就像造船舶和飞机有流体力学的支持,其团队致力于将大模型研究科学化,这是真正让它实现商业化与可持续发展的重要动力。
除了MiniCPM模型之外,面壁智能还在现场公布了120亿参数的多模态大模型面壁OmniLMM,目前是开源社区最强多模态模型之一,所有发布模型均已开源。
2月2日的群访交流中,李大海表示,目前面壁规划的MiniCPM商业化主要是一方面通过开源为行业做贡献、建立影响力。另一方面,MiniCPM也会在商业层面进行合作授权,由于单个模型成本、研发成本都比较低,可以用作更多行业模型的训练以及推理。
李大海透露,2024年,面壁将持续提升端侧大模型能力,同时依然会训练基座模型能力,去挑战GPT-4,“这是非常明确的”。另外,面壁还将用Agent来解决大模型落地的最后一公里,极大提升模型落地效率。
所谓Agent,就是在大语言模型(LLM)技术下,Agent可以理解为某种能自主理解、规划决策、执行复杂任务的智能体。用感知(Perception)、规划(Planning)和行动(Action)实现人的智能交互。OpenAI联合创始人Andrej Karpathy曾表示,“AI Agent代表着一个疯狂的未来。”目前,国内字节、面壁、智谱 AI 等企业都在投入 AI Agent技术产品研发当中。
“我对于我们的模型能力提升蛮有信心的,未来我将会更加关注模型的落地应用问题。”李大海表示,今年全行业将更重视应用落地,这是一个大的趋势。而面壁坚信,通用人工智能(AGI)是需要长期努力的目标,如同“马拉松比赛”一样,需要不断实现技术积累,以及更多更强的模型产品等。
谈及国内大模型行业“百模大战”之后的发展趋势,李大海表示,尽管很难预测未来行业发展,但他认为,随着时间推移,公司会有“分层”,大模型应用可能会“百花齐放”,然而通用基座(千亿)大模型不会太多,可能只有极少数的几家公司最终能“突出重围”。
“回到行业格局上来看,我们去回顾历史上每一次技术浪潮,和每一次行业机会,其实都会诞生出这个技术浪潮对应的原生公司,并且成为伟大的公司。AI 大模型本身既是产品,又是技术。而作为一个技术,现在但凡和大模型沾边的公司都声称在做大模型,但我认为,这并不应该把它分类到大模型公司,更多还是某个场景的应用落地。我相信,逐步有些公司会更多往‘应用层’去发展,然而,我们相信,基座类型的大模型公司不会太多,虽然不会只有一家,但具体是几家我们也不清楚,这个是很难预测的一件事情。”李大海对钛媒体App表示。
李大海在演讲中强调,面壁智能在大模型能力上有很深厚的技术积累。未来,面壁希望发挥一定优势,推动行业迈向 AGI 的速度快一些,使得 AGI 技术让人们生活变得更好。
(本文首发钛媒体App,作者|林志佳)
根据《网络安全法》实名制要求,请绑定手机号后发表评论
面壁智能发布20亿开源端侧模型minicpm,体现了开源精神
商业收入主要来自to b端
智能体化是迈向通用智能的必由之路