华为开始大规模投资 AI 大模型了。
钛媒体AGI获悉,4月11日下午,清华系 AI 大模型公司“面壁智能”宣布,公司日前完成新一轮数亿元融资,由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。由光源资本担任独家财务顾问。
本轮融资完成后,面壁智能将进一步推进优秀人才引入,加固大模型发展的底层算力与数据基础,持续引领“高效大模型”路线,推动大模型高效训练、快步应用落地。
与此同时,继2月发布开源模型MiniCPM之后,面壁智能还在11日下午推出全新、领先的MiniCPM 2系列端侧模型,包括四款——MiniCPM-V 2.0多模态模型,20亿参数的MiniCPM-2B-128k长文本模型,MiniCPM-MoE-8x2B MoE(混合专家)模型,以及12亿参数规模的MiniCPM-1.2B模型,而MiniCPM-1.2B比上代推理速度提升38%,成本下降高达60%。
面壁智能联合创始人、CEO李大海表示:“这次融资成果是我们共同努力的结果,更是对团队实力和前景的肯定。面向未来,我们将进一步加速团队建设,提升面壁智能在大模型领域的技术实力和市场竞争力。”
据悉,面壁智能成立于2022年8月,总部位于北京,公司深耕通用 AI 领域,专注大模型技术创新与应用转化。2020年12月,团队发布国内首个中文大模型CPM-1。同时,面壁已面向公众发布千亿多模态大模型对话助手“面壁露卡Luca”,以及一款 AI 移动应用“心间”。
面壁智能创始团队主要来自于清华大学自然语言处理实验室(THUNLP),公司CEO李大海还是知乎CTO(首席技术官);另一位公司联合创始人刘知远,则是清华大学计算机系副教授、博士生导师,研究方向为计算机自然语言处理;公司董事、CTO曾国洋为智源悟道·文源中文预训练模型团队骨干成员。
人才方面,据李大海介绍,面壁智能科研团队有100多人,含清华、北大毕业的员工数量占比高达80%,平均年龄仅为28岁,而且工程团队还有来自阿里、字节、百度等国内外知名公司的 AI 人才。
融资方面,去年4月,面壁智能公开了一轮天使轮融资,由知乎领投,智谱 AI 为跟投方。
技术产品方面,过去一年,瞄准 AGI 这一方向,面壁选择围绕“高效大模型”这一方向,推进大模型技术发展和市场落地。截至目前,公司正规划构建Al Agent智能体协作平台,推出基于群体智能的“大模型+Agent”应用——ChatDev智能软件开发平台。
李大海曾对钛媒体App表示,面壁MiniCPM、多模态开源模型OmniLMM等面壁B端技术产品,都是基于公司千亿级模型研发路线延伸,将淬炼化的大模型训练方法下放至小模型训练中,实现高效低成本模型训练与应用。
截至目前,开源的面壁MiniCPM2多次登顶GitHub Trending,跻身HuggingFace 50万模型TOP3一周,GitHub星标3.4K,全网下载量37万,全网广受赞誉。
而此次面壁智能发布的MiniCPM 2四款模型,整体对标的是谷歌Gemma-7B、OpenAI GPT-4V、Mistral-7B、Llama2等国外开源模型。
面壁智能透露,MiniCPM 2模型在同等性能参数更小、同等参数性能更强,超越Mistral-7B、谷歌Gemma、Llama2-13B、 ChatGLM3-6B等,并且170万tokens的推理成本仅需1元。而基于iPhone 15手机的MiniCPM-1.2B模型,比上一代推理速度提升38%,内存减少51.9%,成本下降高达60%。
具体信息如下:
MiniCPM-V 2.0多模态模型:支持多模态图像视频场景,并显著增强OCR(光学字符识别)能力,以实现多模态识别与推理技术。同时,该模型还刷新开源模型最佳OCR表现,在通用场景能力方面比肩Gemini-Pro、GPT-4V,并超越了全系13B(130亿参数)量级模型。另外,幻觉⽔平持平GPT-4V,目标幻觉率应为 0%。
MiniCPM-2B-128k长文本模型:该模型将原有的 4k上下文窗口扩展到了128K,支持在手机、电脑等终端中实现长文本输入。
MiniCPM-MoE-8x2B MoE模型:支持与超大参数模型一样的MoE架构,性能全面增强,推理速度也全面加快,超越了全系7B(70亿参数)量级模型,以及Llama2- 34B等更大模型。
MiniCPM-1.2B模型:参数减少一半,达12亿规模,但仍保持上一代2.4B模型87%的综合性能。在多个公开权威测试榜单上,1.2B模型取得了综合性能超过阿里通义Qwen1.8B、Llama2-7B,甚至超过Llama2-13B。而MiniCPM-1.2B核心重点在于,它运行在苹果iPhone 15设备上推理速度提升38%,达到每秒25 tokens/s,是人说话速度的15~25倍,同时内存减少51.9%(iOS上MiniCPM-2.4B的量化模型是2.1G,MiniCPM-1.2b的是1.01G),成本也大幅下降。
面壁智能称,多模态能力是当前最被看重的大模型能力之一,智能手机、汽车车机等智能终端更因其天然的影像视觉高频需求,对部署在端侧的模型提出更高的多模态识别与推理要求。
“我们可以看到,MiniCPM为丰富端侧场景赋能增效尤其信息安全高要求场景,包括穿戴设备、手机场景、PC场景、智能家居、汽车场景、教育场景、金融场景、政务场景。适配主流芯片包括AMD、Intel、高通、MTK,国产的芯片国内的公司会主动把MiniCPM往国产的芯片上做适配,可以看到跟未来在更多各种不同的智能终端应用落地是相关的。”李大海称。
今年2月,李大海曾对钛媒体App表示,当前面壁智能规划的MiniCPM商业化,一方面通过开源为行业做贡献、建立影响力;另外MiniCPM也会在商业层面进行合作授权,由于单个模型成本、研发成本都比较低,可以用作更多行业模型的训练以及推理。
李大海透露,2024年,面壁智能将持续提升端侧大模型能力,同时依然会训练基座模型能力,去挑战GPT-4,“这是非常明确的”。另外,公司还将用Agent来解决大模型落地的最后一公里,极大提升模型落地效率。
商业化层面,目前面壁更侧重企业端的产品验证,目前,面壁已携手招商银行、数科网维、知乎等合作伙伴,将大模型与Agent技术部署落地于金融、教育、政务、智能终端等应用场景。
实际上,端侧模型近期成为 AI 领域的热门赛道。AI Phone(手机)、AI PC(个人电脑)等业态层出不穷。近期一场闭门活动上,有行业人士认为,当前通用大模型需要大量的算力支持,而且面临算力“卡脖子”风险,因此,不受制约的端侧模型以及应用落地,或将成为中国大模型“弯道超车”的重要方向之一。
谈及国内大模型行业“百模大战”之后的发展趋势,李大海曾表示,尽管很难预测未来行业发展,但他认为,随着时间推移,公司会有“分层”,大模型应用可能会“百花齐放”,然而通用基座(千亿)大模型不会太多,可能只有极少数的几家公司最终能“突出重围”。
“我们相信,基座类型的大模型公司不会太多,虽然不会只有一家,但具体是几家我们也不清楚,这个是很难预测的一件事情。”李大海对钛媒体App表示。
李大海强调,面壁智能这家公司的底层逻辑,初心是讲求高效大模型的公司。
“高效这个词主要是理解为三个方面:第一是高效训练,从第一天开始面壁智能秉承的宗旨,开始做大模型训练的时候,还没有多机多卡的训练框架,面壁智能自己做了这样的框架BMTrain支撑大模型的训练,让我们在相比GPT3.0降90%的训练成本,现在又持续研究更好的ScalingLaw,用更大的模型压缩效果,用更少的数据训练出更好的模型、更小的模型;第二,高效落地Agent智能体,去年年初3月份开始面壁智能发布第一篇关于智能体的工具学习开始,我们就在持续进行Agent领域的深入的科研和技术落地,所以面壁智能是行业最懂Agent,最早进行Agent研究的团队;另外是高效推理,我们做出了更小的模型,还不够,还通过端云协同技术,希望通过云端协同让所有大模型的应用降更低的成本,极大降低云上大模型的成本。所以面壁能关注到怎么样更好高效地掌握Scaling Law(缩放规律)。”李大海表示。
值得注意的是,此次融资方当中,面壁智能是华为哈勃首个投资的国内 AI 大模型公司,此前华为哈勃曾投资国内AI公司深思考,而更多是投资半导体企业。
另外,除投资面壁智能之外,总规模100亿元的北京市人工智能产业投资基金,近日还投资了智谱 AI、深势科技等。钛媒体App了解到,该基金近期还在谋划投资更多 AI 大模型产业链企业,以加速布局北京 AI 产业集群。
(本文首发钛媒体App,作者|林志佳)
根据《网络安全法》实名制要求,请绑定手机号后发表评论