华为哈勃领投面壁智能新一轮数亿元融资，全新MiniCPM2模型成本降60%

本轮融资由春华创投、华为哈勃领投，北京市人工智能产业投资基金等跟投，知乎作为战略股东持续跟投支持。值得注意的是，面壁智能是华为哈勃首个投资的国内 AI 大模型公司。

面壁智能联合创始人、CEO李大海

华为开始大规模投资 AI 大模型了。

钛媒体AGI获悉，4月11日下午，清华系 AI 大模型公司“面壁智能”宣布，公司日前完成新一轮数亿元融资，由春华创投、华为哈勃领投，北京市人工智能产业投资基金等跟投，知乎作为战略股东持续跟投支持。由光源资本担任独家财务顾问。

本轮融资完成后，面壁智能将进一步推进优秀人才引入，加固大模型发展的底层算力与数据基础，持续引领“高效大模型”路线，推动大模型高效训练、快步应用落地。

与此同时，继2月发布开源模型MiniCPM之后，面壁智能还在11日下午推出全新、领先的MiniCPM 2系列端侧模型，包括四款——MiniCPM-V 2.0多模态模型，20亿参数的MiniCPM-2B-128k长文本模型，MiniCPM-MoE-8x2B MoE（混合专家）模型，以及12亿参数规模的MiniCPM-1.2B模型，而MiniCPM-1.2B比上代推理速度提升38%，成本下降高达60%。

面壁智能联合创始人、CEO李大海表示：“这次融资成果是我们共同努力的结果，更是对团队实力和前景的肯定。面向未来，我们将进一步加速团队建设，提升面壁智能在大模型领域的技术实力和市场竞争力。”

据悉，面壁智能成立于2022年8月，总部位于北京，公司深耕通用 AI 领域，专注大模型技术创新与应用转化。2020年12月，团队发布国内首个中文大模型CPM-1。同时，面壁已面向公众发布千亿多模态大模型对话助手“面壁露卡Luca”，以及一款 AI 移动应用“心间”。

面壁智能创始团队主要来自于清华大学自然语言处理实验室（THUNLP），公司CEO李大海还是知乎CTO（首席技术官）；另一位公司联合创始人刘知远，则是清华大学计算机系副教授、博士生导师，研究方向为计算机自然语言处理；公司董事、CTO曾国洋为智源悟道·文源中文预训练模型团队骨干成员。

人才方面，据李大海介绍，面壁智能科研团队有100多人，含清华、北大毕业的员工数量占比高达80%，平均年龄仅为28岁，而且工程团队还有来自阿里、字节、百度等国内外知名公司的 AI 人才。

融资方面，去年4月，面壁智能公开了一轮天使轮融资，由知乎领投，智谱 AI 为跟投方。

技术产品方面，过去一年，瞄准 AGI 这一方向，面壁选择围绕“高效大模型”这一方向，推进大模型技术发展和市场落地。截至目前，公司正规划构建Al Agent智能体协作平台，推出基于群体智能的“大模型+Agent”应用——ChatDev智能软件开发平台。

李大海曾对钛媒体App表示，面壁MiniCPM、多模态开源模型OmniLMM等面壁B端技术产品，都是基于公司千亿级模型研发路线延伸，将淬炼化的大模型训练方法下放至小模型训练中，实现高效低成本模型训练与应用。

截至目前，开源的面壁MiniCPM2多次登顶GitHub Trending，跻身HuggingFace 50万模型TOP3一周，GitHub星标3.4K，全网下载量37万，全网广受赞誉。

而此次面壁智能发布的MiniCPM 2四款模型，整体对标的是谷歌Gemma-7B、OpenAI GPT-4V、Mistral-7B、Llama2等国外开源模型。

面壁智能透露，MiniCPM 2模型在同等性能参数更小、同等参数性能更强，超越Mistral-7B、谷歌Gemma、Llama2-13B、 ChatGLM3-6B等，并且170万tokens的推理成本仅需1元。而基于iPhone 15手机的MiniCPM-1.2B模型，比上一代推理速度提升38%，内存减少51.9%，成本下降高达60%。

具体信息如下：

MiniCPM-V 2.0多模态模型：支持多模态图像视频场景，并显著增强OCR（光学字符识别）能力，以实现多模态识别与推理技术。同时，该模型还刷新开源模型最佳OCR表现，在通用场景能力方面比肩Gemini-Pro、GPT-4V，并超越了全系13B（130亿参数）量级模型。另外，幻觉⽔平持平GPT-4V，目标幻觉率应为 0%。
MiniCPM-2B-128k长文本模型：该模型将原有的 4k上下文窗口扩展到了128K，支持在手机、电脑等终端中实现长文本输入。
MiniCPM-MoE-8x2B MoE模型：支持与超大参数模型一样的MoE架构，性能全面增强，推理速度也全面加快，超越了全系7B（70亿参数）量级模型，以及Llama2- 34B等更大模型。
MiniCPM-1.2B模型：参数减少一半，达12亿规模，但仍保持上一代2.4B模型87%的综合性能。在多个公开权威测试榜单上，1.2B模型取得了综合性能超过阿里通义Qwen1.8B、Llama2-7B，甚至超过Llama2-13B。而MiniCPM-1.2B核心重点在于，它运行在苹果iPhone 15设备上推理速度提升38%，达到每秒25 tokens/s，是人说话速度的15～25倍，同时内存减少51.9%（iOS上MiniCPM-2.4B的量化模型是2.1G，MiniCPM-1.2b的是1.01G），成本也大幅下降。

面壁智能称，多模态能力是当前最被看重的大模型能力之一，智能手机、汽车车机等智能终端更因其天然的影像视觉高频需求，对部署在端侧的模型提出更高的多模态识别与推理要求。

“我们可以看到，MiniCPM为丰富端侧场景赋能增效尤其信息安全高要求场景，包括穿戴设备、手机场景、PC场景、智能家居、汽车场景、教育场景、金融场景、政务场景。适配主流芯片包括AMD、Intel、高通、MTK，国产的芯片国内的公司会主动把MiniCPM往国产的芯片上做适配，可以看到跟未来在更多各种不同的智能终端应用落地是相关的。”李大海称。

今年2月，李大海曾对钛媒体App表示，当前面壁智能规划的MiniCPM商业化，一方面通过开源为行业做贡献、建立影响力；另外MiniCPM也会在商业层面进行合作授权，由于单个模型成本、研发成本都比较低，可以用作更多行业模型的训练以及推理。

李大海透露，2024年，面壁智能将持续提升端侧大模型能力，同时依然会训练基座模型能力，去挑战GPT-4，“这是非常明确的”。另外，公司还将用Agent来解决大模型落地的最后一公里，极大提升模型落地效率。

商业化层面，目前面壁更侧重企业端的产品验证，目前，面壁已携手招商银行、数科网维、知乎等合作伙伴，将大模型与Agent技术部署落地于金融、教育、政务、智能终端等应用场景。

实际上，端侧模型近期成为 AI 领域的热门赛道。AI Phone（手机）、AI PC（个人电脑）等业态层出不穷。近期一场闭门活动上，有行业人士认为，当前通用大模型需要大量的算力支持，而且面临算力“卡脖子”风险，因此，不受制约的端侧模型以及应用落地，或将成为中国大模型“弯道超车”的重要方向之一。

谈及国内大模型行业“百模大战”之后的发展趋势，李大海曾表示，尽管很难预测未来行业发展，但他认为，随着时间推移，公司会有“分层”，大模型应用可能会“百花齐放”，然而通用基座（千亿）大模型不会太多，可能只有极少数的几家公司最终能“突出重围”。

“我们相信，基座类型的大模型公司不会太多，虽然不会只有一家，但具体是几家我们也不清楚，这个是很难预测的一件事情。”李大海对钛媒体App表示。

李大海强调，面壁智能这家公司的底层逻辑，初心是讲求高效大模型的公司。

“高效这个词主要是理解为三个方面：第一是高效训练，从第一天开始面壁智能秉承的宗旨，开始做大模型训练的时候，还没有多机多卡的训练框架，面壁智能自己做了这样的框架BMTrain支撑大模型的训练，让我们在相比GPT3.0降90%的训练成本，现在又持续研究更好的ScalingLaw，用更大的模型压缩效果，用更少的数据训练出更好的模型、更小的模型；第二，高效落地Agent智能体，去年年初3月份开始面壁智能发布第一篇关于智能体的工具学习开始，我们就在持续进行Agent领域的深入的科研和技术落地，所以面壁智能是行业最懂Agent，最早进行Agent研究的团队；另外是高效推理，我们做出了更小的模型，还不够，还通过端云协同技术，希望通过云端协同让所有大模型的应用降更低的成本，极大降低云上大模型的成本。所以面壁能关注到怎么样更好高效地掌握Scaling Law（缩放规律）。”李大海表示。

值得注意的是，此次融资方当中，面壁智能是华为哈勃首个投资的国内 AI 大模型公司，此前华为哈勃曾投资国内AI公司深思考，而更多是投资半导体企业。

另外，除投资面壁智能之外，总规模100亿元的北京市人工智能产业投资基金，近日还投资了智谱 AI、深势科技等。钛媒体App了解到，该基金近期还在谋划投资更多 AI 大模型产业链企业，以加速布局北京 AI 产业集群。

（本文首发钛媒体App，作者｜林志佳）

华为哈勃领投面壁智能新一轮数亿元融资，全新MiniCPM2模型成本降60%｜钛媒体AGI

敬原创，有钛度，得赞赏