面壁智能发布20亿开源端侧模型，称部分超越美国Llama 2能力

公司CEO李大海对钛媒体App表示，未来行业发展很难预测，但他认为，随着时间推移，公司会有“分层”，大模型应用可能将会“百花齐放”，然而通用基座大模型可能只有极少数公司能“突出重围”。

国内 AI 大模型技术正加速演进。

钛媒体App获悉，今年2月1日，清华系 AI 公司“面壁智能”在北京发布会上推出20亿参数的开源端侧模型MiniCPM。

面壁智能表示，在多个主流评测榜单中，该模型中英文均分超过目前较为领先的欧洲Mistral-7B开源模型，而且在同等规模模型中，相比Llama 2-13B、甚至一些400亿参数级量级模型，面壁MiniCPM在代码、数学能力等方面也“毫不逊色”。该公司称，该模型支持消费级显卡如英伟达1080Ti参数微调，以及主流手机处理器端侧推理。

面壁智能联合创始人、CEO李大海表示，MiniCPM是迄今最强的旗舰端侧模型。而此次是面壁“大模型+Agent ”双引擎战略的关键一步。公司坚定认为智能体化是未来迈向通用智能的必由之路，而智能体必然要在端侧服务用户，面壁接下来会进一步探索Agent +云端协同的工作机制，实现智能赋能万物。

李大海向钛媒体App强调，公司正在和手机厂商商谈合作，在手机智能语音中内置MiniCPM是一个实用场景。

“目前面壁的整体商业收入来源主要是To B（企业）端，包括招商银行，西门子，易车网等标杆客户，场景集中在金融、营销等领域。”李大海对钛媒体App表示。

面壁智能CEO李大海

据悉，面壁智能成立于2022年8月，总部位于北京，公司深耕通用AI领域，专注大模型技术创新与应用转化。面壁已面向公众发布千亿多模态大模型对话助手“面壁露卡Luca”。截至目前，公司正规划构建Al Agent智能体协作平台。

面壁智能创始团队主要来自于清华大学自然语言处理实验室（THUNLP），公司CEO李大海还是知乎CTO（首席技术官）；另一位公司联合创始人刘知远，则是清华大学计算机系副教授、博士生导师，研究方向为计算机自然语言处理；公司董事、CTO曾国洋为智源悟道·文源中文预训练模型团队骨干成员。

人才方面，据李大海介绍，截至目前，面壁智能科研团队有100多人，含清华、北大毕业的员工数量占比高达80%，平均年龄仅为28岁，而且工程团队还有来自阿里、字节、百度等国内外知名公司的 AI 人才。

李大海透露，他和刘知远教授的分工主要是，李大海全面负责公司战略层面的制定以及日常管理，刘知远更关注面壁智能的技术战略的中长期演进，以及模型训练、技术层面积累等方面。

融资方面，去年4月，面壁智能公开了一轮天使轮融资，由知乎领投，智谱 AI 为跟投方。

技术产品方面，To C消费端，面壁智能的基座模型产品“面壁露卡Luca”已获审批并对外开放，以及最新的一款 AI 移动应用“心间”。李大海表示，面壁MiniCPM、多模态开源模型OmniLMM等面壁B端技术产品，都是基于公司千亿级模型研发路线延伸，将淬炼化的大模型训练方法下放至小模型训练中，实现高效低成本模型训练与应用，面壁Agent产品也将会于今年陆续对外公布。

面壁团队认为，MiniCPM的市场竞争优势主要有三点：一、算法优化，自创“模型沙盒”实验，高效训模；二、成本优化，支持在CPU上跑推理、在消费级显卡上做高效训练与微调；三、数据治理，已经形成从数据治理到多维评测的闭环，牵引模型快速迭代。

对于MiniCPM的算力成本优化，李大海表示，MiniCPM背后主要是技术层面实现了全流程高效AI infra（推理框架）10倍推理加速，成本降低90%。

他在现场以演示的OPPO Find N3折叠屏手机为例，MiniCPM利用高通骁龙855芯片，成本约为600元，按运行5年计算，每秒7.5 tokens，那么170万 tokens 的推理成本仅需人民币1元，是欧洲开源模型Mistral-Medium的百分之一。另外，面壁正在就最近一两年上市的智能手机做测试，从而更广泛应用于移动设备中。

去年3月，欧洲开源模型Mistral-7B横空出世，以70亿参数打败了百亿参数的开源模型霸主Meta Llama 2，成为大模型领域“以小搏大”的典型案例。而面壁智能方面表示，新的MiniCPM模型仅用20亿参数规模、1T Tokens精选数据，中英文平均成绩均超越70亿参数的Mistral-7B，中文和通用能力超过微软明星模型Phi-2（蒸馏GPT-4）。

“端侧模型有全天候低成本的特点，云端协同更难更复杂。目前这一端侧模型能用同样数据达到远超同等云端模型效果，而且有更强的商业意义。”李大海解释面壁智能为何要做端侧模型。

清华大学计算机系长聘副教授、面壁智能联合创始人刘知远表示，他希望这个端侧模型能让更多人意识到，即便是20亿参数尺寸的模型，能达到的能力上限仍远超想象。就像造船舶和飞机有流体力学的支持，其团队致力于将大模型研究科学化，这是真正让它实现商业化与可持续发展的重要动力。

图左是李大海，图右是清华大学副教授、面壁智能联合创始人刘知远

除了MiniCPM模型之外，面壁智能还在现场公布了120亿参数的多模态大模型面壁OmniLMM，目前是开源社区最强多模态模型之一，所有发布模型均已开源。

2月2日的群访交流中，李大海表示，目前面壁规划的MiniCPM商业化主要是一方面通过开源为行业做贡献、建立影响力。另一方面，MiniCPM也会在商业层面进行合作授权，由于单个模型成本、研发成本都比较低，可以用作更多行业模型的训练以及推理。

李大海透露，2024年，面壁将持续提升端侧大模型能力，同时依然会训练基座模型能力，去挑战GPT-4，“这是非常明确的”。另外，面壁还将用Agent来解决大模型落地的最后一公里，极大提升模型落地效率。

所谓Agent，就是在大语言模型（LLM）技术下，Agent可以理解为某种能自主理解、规划决策、执行复杂任务的智能体。用感知（Perception）、规划（Planning）和行动（Action）实现人的智能交互。OpenAI联合创始人Andrej Karpathy曾表示，“AI Agent代表着一个疯狂的未来。”目前，国内字节、面壁、智谱 AI 等企业都在投入 AI Agent技术产品研发当中。

“我对于我们的模型能力提升蛮有信心的，未来我将会更加关注模型的落地应用问题。”李大海表示，今年全行业将更重视应用落地，这是一个大的趋势。而面壁坚信，通用人工智能（AGI）是需要长期努力的目标，如同“马拉松比赛”一样，需要不断实现技术积累，以及更多更强的模型产品等。

谈及国内大模型行业“百模大战”之后的发展趋势，李大海表示，尽管很难预测未来行业发展，但他认为，随着时间推移，公司会有“分层”，大模型应用可能会“百花齐放”，然而通用基座（千亿）大模型不会太多，可能只有极少数的几家公司最终能“突出重围”。

“回到行业格局上来看，我们去回顾历史上每一次技术浪潮，和每一次行业机会，其实都会诞生出这个技术浪潮对应的原生公司，并且成为伟大的公司。AI 大模型本身既是产品，又是技术。而作为一个技术，现在但凡和大模型沾边的公司都声称在做大模型，但我认为，这并不应该把它分类到大模型公司，更多还是某个场景的应用落地。我相信，逐步有些公司会更多往‘应用层’去发展，然而，我们相信，基座类型的大模型公司不会太多，虽然不会只有一家，但具体是几家我们也不清楚，这个是很难预测的一件事情。”李大海对钛媒体App表示。

李大海在演讲中强调，面壁智能在大模型能力上有很深厚的技术积累。未来，面壁希望发挥一定优势，推动行业迈向 AGI 的速度快一些，使得 AGI 技术让人们生活变得更好。

（本文首发钛媒体App，作者｜林志佳）

面壁智能发布20亿开源端侧模型，称部分超越美国Llama 2能力｜钛媒体焦点

敬原创，有钛度，得赞赏