6000亿参数的商汤多模态大模型发布，性能超越GPT-4 Turbo

（图片来源：钛媒体App编辑拍摄）

商汤正加速升级大模型技术能力。

钛媒体AGI获悉，4月23日下午，人工智能（AI）上市公司商汤科技发布“日日新SenseNova”5.0多模态大模型系列，采用混合专家（MoE）架构，支持多达10T Tokens中英文与训练数据，推理合成数据高达数千亿Token，推理时上下文窗口可以有效到200K左右，拥有端侧扩散和语言模型，知识、推理、数学、代码等综合能力全面对标GPT-4 Turbo。

商汤科技表示，这是行业内首个“云、端、边”全栈大模型产品矩阵，以满足不同规模场景的应用需求。公司技术领跑加速生成式AI向产业落地的全面跃迁，实现大模型按需所取。

商汤科技董事长兼CEO徐立表示，在尺度定律（Scaling Law）的准则下，商汤持续推动自身大模型研发，会持续探索大模型能力的KRE三层架构（知识-推理-执行），不断突破大模型能力边界。

“我们认为，2024年是端侧大模型爆发的一年。”徐立在会上表示。

商汤科技董事长兼CEO 徐立博士

会前与钛媒体App编辑对话时，商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示，端侧模型市场潜力巨大，每年有30亿部手机，PC出货量一年也有2-3亿台规模，AI PC 可以成为我们每个人的助手，汽车智能化也成为重要发展机遇期，从而能让大模型普及应用。

“这也是商汤今年的一个战略重点。”王晓刚强调，“今天我们模型的能力还是归功于我们的模型参数量、数据量，以及对算力的需求不断增加下的性能提升。那么在这个基础上，未来大模型对于资源的投入、软硬件基础设施的要求是越来越高，后面必然导致的一个结果就是，不会有那么多家去从事大模型，不会形成‘百模’或‘千模大战’。”

据悉，2023年3月，商汤集团宣布，公司愿景和战略目标转型为“将AGI作为核心战略目标，以期在未来几年内实现AGI技术的重大突破”。

基于此变革，商汤科技建立并执行AI for All的发展目标，并将重点放到以SenseCore Al大装置作为大模型生产的核心平台，以及商汤AIDCAI 计算中心平台作为大算力AI基础设施能力，从而打造通用能力的多模态大模型，以及垂直行业、更具专长的专业大模型，从根本上降低大模型的下游应用成本和门槛。

去年4月10日，商汤首次公布“日日新SenseNova”大模型体系，以及自研的中文语言大模型应用平台“商量”，参数量达千亿，可实现文本生成、图像生成、多模态内容生成等能力与场景应用。

2023年7月、8月以及今年1月，日日新大模型升级到2.0、3.0版本以及日日新V4.0，“商量”2.0和小模型商量S版（SenseChat S）等不同参数量级模型版本页同时发布，可适配移动端等不同终端及场景的应用需求。新的日日新V4.0通过提高训练数据的质量以及实现基础语言能力的显著提升，在代码编写、数据分析、医疗问答等多个场景中达到与GPT-4相匹配的能力，同时还开源对应7B和20B的两种参数基模型。

今年3月，徐立表示，在Scaling Law指引下，大模型正处于技术革命与性能提升的黄金时期。自2023年发布以来，商汤“日日新”大模型的能力每隔三个月都会有显著提升，实现了万卡万参的大模型训练能力，在基模型、多模态、编程和工具调用、百万字无损上下文、终端小模型上都达到国内领先水平。

最新2023年报显示，去年基于商汤生成式AI收入达到12亿元人民币，实现200%的飞速增长；同时，商汤大模型基础设施大装置SenseCore总算力规模突破性增长至12000 petaFLOPS，运营GPU数量达4.5万卡，其中国产算力2000P，已完成58款国产芯片适配和应用；另外，生成式 AI 业务中超过70%的客户在过去12个月内是商汤的新客户，剩下30%的存量客户的客单价也录得约50%的增速，截至3月，订单金额超过千万人民币的客户数已达到数十家，日日新赋能C端的调用量实现近120倍的增长。

4月23日，商汤技术开放日上，公司正式发布日日新大模型V5.0，这也是国内首个有能力建立“云、端、边”全栈大模型产品矩阵的企业。具体来看，基于此次技术开放日活动，钛媒体App梳理了商汤核心的四大技术板块：

1、云端模型

商汤千亿大模型SenseChat（商量）升级到5.0，达到6000亿参数，支持MoE大幅提升创意写作能力、推理能力以及总结能力等，相同的中文知识注入后，可获得更好的理解总结及问答；同时，数理能力、代码能力及推理能力达到业内领先水平；多模态能力上，支持高清长图的解析和理解以及文生图交互式生成，实现复杂的跨文档知识抽取及总结问答展示，以及具备丰富的多模态交互能力，其大模型在基准测试MMBench中综合得分排名首位。

在主流客观评测上，日日新5.0达到或超越了去年 OpenAI 在开发者大会上发布的 GPT-4 Turbo 版本，同时也几乎全方位碾压了近期发布的 Llama 3-70B。

徐立表示，在高阶推理，特别是数学上的提升，相比GPT-4，日日新提升了100%多，Llama 2、3提升了400%多，也就是大部分用来提升数据质量的能力构建在推理能力上，推进合成数据的推理。

2、端边模型

随着大模型技术的快速发展，不同应用场景的需求日益显现，AI 大模型在智能手机、电脑、VR 眼镜等终端设备领域的应用也成为一大趋势，因此推出1.8B（18亿）参数规模的 SenseChat-Lite 版本端侧⼤模型。

在基准测试中，该端侧模型全面超越了MiniCPM-2B、Phi-2等同量级的大模型，并且还越级比肩一些7B、13B大模型。

徐立称，这是同等尺度性能最优，跨级尺度全面领先。“端侧大模型，天下武功，唯快不破。”

同时，商汤还推出端云协同解决方案，可以通过智能化判断协同发挥端云各自优势，部分场景端侧处理占比超过80%，从而显著降低推理成本；目前，商汤日日新·端侧大语言模型的推理速度达到业内最快，可在中端平台实现18.3字/s的平均生成速度，旗舰平台更是达到了78.3字/s；而文生图中，扩散模型端侧LDM-AI扩图技术推理速度小于1.5秒，比友商云端app快10倍，支持输出1200万像素及以上的高清图片，支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。

王晓刚对钛媒体AGI表示，商汤在端侧模型做的比较好。过去一年里，公司在云端给手机、汽车客户做提供服务时，还针对这些终端用户需求进行大量改进和开发，整个效果是跟云端模型是对齐的，体验上会有一个特别大的优势。此次通过稀疏模型的激活，可大大节省运算成本，降低端侧模型功耗。

3、企业一体机

此次活动上，针对于金融、代码、医疗、政务等行业的企业级大模型应用需求，商汤正式推出企业级大模型一体机，可同时支持企业级千亿模型加速和知识检索硬件加速，实现本地化部署，即买即用，降低企业应用大模型的门槛。相比行业同类产品，推理成本节约80%，检索大大加速，CPU工作负载50%。

具体来说，商汤企业级大模型一体机采用“2-42”架构，高密一体机，平台同级性能最强，拥有高速4卡互连，显存可达256GB，互联速度可达448GB/s，算力可达2P FLOPS@半精度。

其中，小浣熊·代码大模型一体机轻量版价格为每台35万元人民币起。徐立提到，这款产品具有性价比、可用性、安全性、低门槛等优势。

4、大模型Agents和应用

整体来说，基于通用 AI 基础设施的SenseCore、“日日新”大模型体系，商汤研发了多个生成式AI产品，如商量、秒画、如影、格物、琼宇、大医以及最新的小浣熊家族系列，均在5.0版本中有更新。

以小浣熊为例。商汤新的小浣熊系列支持端侧，以及不止有代码小浣熊，还有办公小浣熊等，支持更多的场景应用；秒画则全面更新升级，支持更精细的词语。

徐立表示，现在发布的类似于代码小浣熊机器人，可以端到端，至于用自然语言去写代码目前来看还不能完全自动，原因是人类的自然语言有天然的奇异性。

另外，商汤还公布“文生视频”等领域新的技术突破。

徐立在现场播放了三段完全由商汤大模型生成的视频，并强调“文生视频”平台对于人物、动作和场景的可控性，但并没有正式发布“文生视频”产品；而针对数字人，商汤还发布过商汤·拟人语言大模型，让虚拟人物感受真实。

徐立表示，商汤团队希望持续推动整个 AI 产业的变化，特别是 AI 2.0 时代的转型。

王晓刚对钛媒体App表示，各个模型之间并不是孤立存在的。商汤多模态模型是以语言模型为基础，而文生视频模型在网络的架构、数据生产的管线、研发的流程上是大量地借鉴去年商汤文生图的模型，所以模型之间也是相互关联的。同时，商汤背后积累大量know-how。

“今天大模型发展最重要的不是数量到底是有几个模型存下来，最重要的还是在模型的差异化上。所以今天说大战也好，卷也好，主要体现在我们缺少差异化。所以怎么来带来我们的差异化？要有创新，今天这些研发模式还存在着一些问题，比如当我们看到OpenAI发布一个模型时，知道什么样的模型，什么样的功能是可以做到的时候，大家就蜂拥而上做类似的东西。对于别人没有尝试过，没有做出来东西，它的不确定性高、有投入风险时，又有很少有人在这方面做投入，所以可以看到商汤在大模型发展的思路上，跟其他很多公司是不一样的。”王晓刚表示。

王晓刚还向钛媒体App提到，“绝影”正专注于智能汽车发展，不止有自主权和更大投入，而且会包括商汤基础能力支持。而对于整个商汤来说，未来发展的重点不是做实体的机器人，而是打造机器人的“大脑”。

“这是我们最擅长且应该发挥价值的地方。”王晓刚表示。

王晓刚强调，AI 大模型是一个长期投入、长期竞争的过程。在这条路上，商汤还是非常坚定会往前继续走，而且在这基础之上会与很多合作伙伴、生态一起去支持这些成果和基础能力。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）