对话蜜度CTO刘益东：价格战、MoE......中国AI大模型下一步“卷”什么？

“大模型技术绝对降低了人与机器打交道的门槛，可完全用自然语言交互，让更多智能体连接等方式解决更多需求。所以，大模型促使我们实现一个AI效率工具时代，从而普及到更多的人，推动产业革命。”刘益东表示。

7月4日-6日，2024世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）在上海召开。

作为国内在政务领域开展 AI 大模型的公司，蜜度科技股份有限公司（MIDU，以下简称“蜜度”）今年在WAIC期间发布自研的蜜巢3.0大模型，支持MoE（专家混合）架构，在预训练、微调与RLHF阶段分别新增200亿、10万、1万高质量语料数据，并且从训练到推理全流程融入国产化软硬件生态，为客户提供安全可控的落地解决方案。

会前独家对话时，蜜度首席技术官（CTO）、蜜度蜜巢总裁刘益东对钛媒体App表示，基于去年政务垂类的蜜巢2.0模型，今年3.0模型更加注重落地场景的针对性训练，利用MoE架构实现细分场景的业务应用，用更泛化的系统解决20多个场景的实际问题。他指出，从整体来看，蜜巢3.0 MoE模型的性能提升10%左右，而更大的效果提升将体现在基于高质量数据集、多任务架构和全流程国产化的新模型所广泛应用的落地场景当中。
蜜度CTO、蜜度蜜巢总裁刘益东

蜜度CTO、蜜度蜜巢总裁刘益东

据悉，蜜度成立于2009年，是一家以 AI 技术为核心的语言智能和垂直大模型企业，专注于多模态、多语言智能科技，利用跨模态检索（CMR）、多语言校对（MLC）、计算机视觉（CV）、自然语言处理（NLP）、知识图谱（KG）等技术，为政府、媒体和企业各类场景提供AI产品以及“AI+”解决方案。

2015年，蜜度获新浪微博股权投资；2020年公司获人民网旗下投资基金的股权投资。

2023年，蜜度完成股改，并发布蜜巢政务大模型、文修智能校对大模型，并于2024年初，蜜巢、文修两个垂直大模型均完成备案。与此同时，蜜度还与华为昇腾深度合作，目前蜜度已使用华为基础设施产品展开业务商业落地。

去年WAIC发布蜜巢大模型时，刘益东向钛媒体App直言，团队一直致力于打造优质数据构建、数据训练输出能力，以此形成ChatGPT、DALL·E 2这类产品体验。而与GPT不同的是，蜜巢大语言模型更多用于政务、媒体行业等垂直领域，并非ChatGPT这种千亿级通用大模型。（详见钛媒体App前文：《蜜度推出自研行业大模型蜜巢系列》）

而相较于蜜巢2.0，蜜巢3.0主要新增3个核心点：首先，蜜巢3.0在预训练、微调与RLHF阶段分别新增200亿、10万、1万高质量语料数据，进一步提升模型输出内容的专业性、精准度与安全对齐能力，使其在实际应用场景表现增强；蜜巢3.0采用Llama Pro+MoE架构，在蜜巢2.0基础上采用Llama Pro架构训练，并进一步将其扩展为MoE架构进行训练，让其具备处理多种复杂领域任务的能力；此外，蜜巢3.0从训练到推理全流程融入国产化软硬件生态，为客户提供安全可控的落地解决方案。

那么，在大模型“价格战”和MoE、多模态等技术不断延展下，国内 AI 大模型下一步应该“卷”什么？

刘益东表示，大模型应用已经进入到了“白热化”阶段，一部分在打造自己的模型优势，另一部分可能在同质化基础上“卷”价格战。比如230多个大模型公开招投标结果当中，很多头部大厂的解决方案已经下探到百万、甚至数十万以下，因此，To B大模型的确进入了一个非常内卷的阶段。

“相对于其他的基座模型，我们主要针对的是注重安全、国产本地化部署的政务垂直场景，我们认为还是能够去很好地满足客户想要的东西，并且我们的服务响应还是很及时的。那么，我们希望在这样的一个‘内卷’阶段，能够用比较优质高效的服务去打动我们的客户，从而能够在某几个场景实现规模化，后续边际成本才有可能是越来越低的，我们的竞争力就起来了。”刘益东对钛媒体App表示。

但与此同时，刘益东也坦言，相较于传统AI时期，近两年，国内大模型热潮一下子完成了整个市场的教育，导致客户对于 AI 的预期拉的很高。

“所以，现在我们遇到的客户需要我们要去做两类预期管理：一是说明大模型要做的工作是否能达到客户想要的效果，是一步到位还是有更多的工作要做；二是蜜巢聚焦的方向主要是智能知识管理、文稿智能写作和智能舆情分析，所以客户需要了解这三个核心能力能够解决什么业务场景，如何在某一些能力、某些场景上能够实现大模型的规模化落地，这个才能形成持续的成本和收益交叉点。”刘益东表示。

刘益东指出，下一步，蜜度将计划推进多模态的大模型应用，科研团队正探索在蜜度已知场景、客户效能提升等方面，多模态大模型能够发挥怎样的作用。“这一部分研发是探索的路，我们有专门的同事在跟进。”

谈到是否相信Scaling Law（规律效应）的发展，刘益东坦言，无论是基础模型，还是垂直模型，目前都在遵循Scaling Law的落地，这是一个指引性规律，所以至少从定量角度来说已经被证明（正确）了。

刘益东强调，“我们一定要找到一些比较垂直的场景，实现规模化落地的场景解决方案。因为如果纯粹去追求技术前沿发展，那就背离了我们商业的本质，我们的技术研发最后是要赋能客户，给客户带来价值，从而给企业自身带来价值。”

在刘益东看来，当前中美 AI 存在的差距很难用时间来估算。而对于蜜度本身，更像是在做“爬坡”阶段，通过小的行业场景切入，推动大模型技术落地、场景标准化和规模化。“这个过程中‘爬山’就是最辛苦的时候。一旦在3-5个场景跑通，以及获得语料数据的积累，可能慢慢速度就会快起来，之后与别人的差距可能慢慢拉大，优势就出来了。”

“大模型技术绝对降低了人与机器打交道的门槛，可完全用自然语言交互，让更多智能体连接等方式解决更多需求。所以从这个角度上来说，大模型促使我们实现一个 AI 效率工具时代，从而普及到更多的人，推动 AI 产业革命。”刘益东表示。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）

对话蜜度CTO刘益东：价格战、MoE......中国AI大模型下一步“卷”什么？｜直击WAIC 2024

敬原创，有钛度，得赞赏