大模型时代,重塑智能终端新体验

大模型为智能终端带来的变革是全方位的,但挑战也同样显而易见。云侧部署的大模型加端侧应用的大模型是综合平衡性能、成本、功耗、隐私、速度之下的最佳选择。

本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数字先行者”共同探讨、碰撞,希望这些内容能让你有所启发。

端侧和云侧大模型协同的前景,对硬件厂商和阿里云而言都是巨大的机遇。

历次革命性技术的发生,都极大改变了终端的软硬件。机械驱动的织布机,电力驱动的电话,算力驱动的电脑等,大模型也被赋予了同样的期待。

大模型为智能终端带来的变革是全方位的,加速了数字世界和物理世界的融合。它让终端更加理解用户的自然语言,也具备更强的智能分析和决策能力,能够根据用户的习惯和偏好,为每个用户量身定制独特的体验。

挑战同样显而易见。端侧需要尽可能体现大模型的能力,但动辄千亿甚至万亿参数模型的大模型所需的庞大算力、存储和能耗是端侧芯片无法承受的,与此同时,端侧用户还对高性能、低时延、数据隐私等存在特别需求。

当前1B模型是端侧应用的主力军,可实现文本生成、语音识别、机器翻译、问答系统、图像分类等轻量级任务;3B模型在高端移动设备上有较多应用,能完成高级文本生成、多轮对话、复杂翻译、图像生成、视频理解等中等复杂任务;7B模型被认为是“黄金尺寸”,可以完成长篇创作、多模态任务、专业领域问答、自动驾驶、自然语言理解等高精度任务,但也已经接近当前端侧设备能承载的模型参数上限;更大参数的模型,比如13B及以上的百亿参数模型,可以完成高质量内容生成、跨领域任务、科学研究等前沿应用,甚至可以离线运行复杂任务,但需要通过模型压缩技术+专用硬件加速,在高端智能设备上部署。

这种情况下,云侧部署的大模型加端侧应用的大模型是综合平衡性能、成本、功耗、隐私、速度之下的最佳选择。

端侧大模型更方便处理本地用户数据,可基于端侧对用户个人的学习深入理解用户意图,进而为用户带来个性化服务。云侧的基础大模型参数量更大,能力更广,能应对更复杂的问题。

端云协同推动更好的智能落地,大模型如何重塑智能终端新体验?极客公园创始人&总裁张鹏,优必选科技副总裁、研究院副院长庞建新,OPPO AI技术规划总监陈晓春,北科瑞声创始人刘轶博士,开展了一场精彩对谈。

大模型如何重塑智能终端

张鹏:大模型,尤其是多模态融合的大模型出现后,首先会对哪种机器人带来变革,解决了哪些之前没有解决的问题?

庞建新:在大模型之前,机器人领域遇到很多挑战。第一个挑战就是多模感知的问题。现在有了大模型之后,我们可以从第一个多模感知的问题入手。多模感知其实不只是解决了从语音感知、视觉感知再到环境感知的问题,而且还把知识融合在了一起,相当于把知识上下文和环境信息、语音交互信息都融在一块进行统一决策,这是大模型带给我们的第一个价值。

第二个挑战是任务决策和任务规划的问题。过去,机器人进入具体场景时需要人工手动写很多条件,通过有限状态机来完成状态转移和任务决策,但只要环境出现变化,过去写的任务可能就无法工作或者要重新写。而通过大模型,我们可以把相应的环境知识和逻辑,以及构建的云地图做一个条件输入进来,综合进行任务规划、决策、编排。在执行过程中,大模型可以对失败的任务重新进行规划、执行,最终完成任务。

此外,还有决策和控制层的工作,由另外一套基于数据驱动的任务规划与任务动作的大模型实现,最终是几个大模型结合在一起来实现我们所需的“端到端”。有的团队可能会做更端到端的工作,我们考虑到机器人的不同形态,任务的不同形态继而环境的不同形态,目前还是会采用分层的方式来实现端到端。

张鹏:从用户视角来看,端侧大模型究竟给智能手机带来了哪些显著的体验提升?你怎么解读体验升级?

陈晓春:OPPO在2024年成立了AI中心专门做这件事情,但其实,AI一直都和手机密不可分,例如手机的影像、推荐搜索等,只是ChatGPT的到来更让每一个人觉得能真真实实感受到,大模型能够改变用户体验。

在具体端侧AI场景上,得益于强大的算力和本地化部署,能让AIGC的响应时间有大幅度的提升,从而消除用户"等待AI反应"的机械感。

再进一步,我们发现手机原生应用结合大模型,能够变得更智能,从而解决用户在手机上的“时间碎片化”的问题。比如,拍照可能要来回切各种APP,甚至有些人可能把照片导出来修改一下,再导回去分享和发布。再比如,用户在开车或爬山,接到老板电话交代事情,没有纸又没有笔,能不能自动通过大模型去摘要理解并自动生成一些to-dolist,大模型与本地应用结合也是我们的一个大方向。

从时间顺序上来说,我们一开始想到了全域知识和个人助理,然后又想到了本地基于用户意图的理解做事方面,不管是设置还是在手机上去真正完成一些更智能的推荐,最后就是手机自身APP和模型结合,解决用户在手机上碎片时间的问题。

张鹏:在智能语音交互方面,大模型带来了什么样的新能力?这又会“重新激活”哪些硬件与语音交互的结合?又对技术栈、产品开发方式带来了哪些变化?

刘轶:对用户来说,近些年语音交互有两次比较大的变化。第一次是Siri推出,让大家知道在手机、手表、Pad上可以用语音来交互,但是受限于算法和算力,没有达到用户期望实现的更好的效果。第二次是近期推出的GPT-4o,大家第一次感受到,原来机器可以做到足够的低延迟,像人一样快速理解,而且合成语音也可以具备丰富的情感,即便说话被打断,还能够做到说话人分离。从用户感受来讲,这已经不再是一个单独的语音识别,而是已经到了理解的层次。

作为第五代人机交互方式,大模型后续有可能像人一样能够自然地用语音交互、理解意图,很有可能在设备上出现私有化的个人助理,不管是在汽车、手机、Pad上,甚至是更轻便的手表、手环上。

几年前,音频信息处理需要按照一整套流程去做,从前端到声学模型的建立、搜索、语言模型,以及最后打标点、分词后处理等,而且这其中的各类数据都需要我们自己去收集和处理。

现在,我们只需要基于开源的声学、语言模型建立端到端的架构,而不需要开发者从头开始。后续面向不同行业应用的时候,也是在这样的基础上通过行业数据、领域数据或者垂直领域知识库再来优化。

端侧需要什么样的大模型?

张鹏:在优必选的端侧实践里,需要什么样的模型?对模型的模态、尺寸、数量有什么要求?

庞建新:机器人主要有三个能力,移动、操作和人机交互。移动能力是解决机器人的行走问题,不管是轮式还是足式,以及行走过程中和周边环境交互感知的问题,就需要一个端侧模型,因为它和控制绑定得比较紧,如果放在云端,一旦有延时机器人就撞到障碍了。

操作能力主要是基于对物体的环境感知,比如机器人看到某个物体,对抓取的路径和方式要有一个规划,这也是以端侧模型为主。

人机交互方面,GPT-4o显示出非常好的流畅性,这一能力可以考虑用云端结合端侧大模型的方式。比如,和机器人对话的时候,不仅要完成对话,可能还要生成肢体动作,肢体动作要和语音形成影射,需要一个大模型来做,这可能就需要端云结合的方式做整体交互。

很明显,我们对端侧算力的要求越来越高了。

目前,端侧有控制部分的模型,另外,在场景有限、任务有限的场景下,任务决策规划的模型也会放在端侧,或者边缘侧,比如说工业场景中需要考虑到隐私问题的一些应用。

张鹏:目前手机可以部署、运行多大尺寸、什么模态的模型?没有云的支撑,端侧小模型的推理算力和模型参数都会受限,这种情况下,最适合做哪些事情?

陈晓春:手机和人之间的交互是最多的,很多亮屏时间每天在6个小时以上,手机和网络之间又是全时的关系,几乎一直在线。在这种情况下,我们考虑模型端侧化或者端侧模型的应用,主要考虑三个点。第一,一些对延时特别敏感、对用户的体验影响非常大的业务。比如漫游场景,所有的数据包都要回源,云和端之间处理传送的距离可能是很远的,这样的延迟对实时翻译等很多时延高敏感业务是不能容忍的。第二,高隐私场景。比如端侧行为的训练和意图推理。我们在考虑端云之间加入联邦学习等各种安全措施保障,同时也在思考端侧模型能不能做得更多。第三,成本和功耗的平衡。比如,云上模型反复调用会不断产生成本,而端侧模型则不存在这一问题。

端侧模型典型的几个受限因素也比较清楚。目前,1B参数的模型在端侧可以跑得很好,7B参数的模型在端侧也已经商业化,而且算是“黄金尺寸”,但13B在端侧运行就已经有点勉强了,可以在实验室环境下实现。参数规模更大的模型就得用云平台,做量化、蒸馏等,会有一些损失。因此,现阶段我们优先把对时间敏感、对隐私保护至关重要的场景优先放到端侧来实现。而对于全局知识性的复杂任务的处理,我们会借助云端模型,包括在云侧还有MoE(Mixture of Experts,混合专家模型),因为现在端侧MoE受限于SoC和DDR之间内存带宽的限制,算力无法发挥出来。

在具体的工程化实践当中,我们发现有时候很多场景不一定需要7B模型,更小参数的模型可以平衡体验和功耗。所以,我们也会采用更小尺寸模型,甚至是一些传统方案。大模型给我们带来很多惊艳的体验,但是它并不是一剂万能灵药,很多时候传统方案也许更有效。

张鹏:语音交互的能力落到端侧的现状是怎样的?什么样的模型适合部署、运行在智能手表的端侧?

刘轶:大家可以看到,语音识别、语音交互,包括大模型调用和理解,在云端上能够调用的很多,但是真正把语音识别做到端侧或者设备上,其实面临很多技术挑战和壁垒,再结合大模型又会产生很多的挑战。

目前,7B参数模型在端侧已经是达到极限,用户体验并不是很好,换句话说,我们可能还没有办法在手机或者Pad上形成产品,让所有不同价格体系的终端调用,语音也是这样。

现在很多厂商都在研究1B模型,包括阿里推出了1.4B模型,行业也有1B以下的模型可以用,特别是面向一些特定的领域或者行业。但是在用的过程当中,大家可以明显体会到这些小参数模型和云端更大参数的模型之间有巨大的差距。因为回归到大模型的基本原理,模型剪枝越多,信息量越少,形成的幻觉就越大,输出结果越不可控。

我个人认为,大模型落地端侧还是要和传统知识处理的方法结合,比如知识图谱、增强搜索等,可能还要牺牲一些准确率,牺牲一些场景抗噪的能力,达到AI现实可用的效果。

端侧AI应用的算力引擎

张鹏:端侧不同应用场景需要调用不同的模型,如果需要千亿甚至万亿参数模型的场景,端侧的算力不够支撑。这时候端云如何协同?需要底层的云具备什么样的能力?

庞建新:我们和阿里云合作了很久,有基础云服务,也有大模型合作。目前AI应用的端云协同还有几个问题,一是如何让开源大模型根据我们的场景做进一步调整,包括端侧部署,云端协同,端云结合是短期内必须解决的问题。

服务机器人和手机不一样,手机是一个被动交互的对象,只有人发的指令手机才会响应,但机器人很多时候需要主动去感知,这要基于大量的视觉数据、听觉数据,以及知识数据。这些数据在云端处理的成本对任何一家企业来说无法承受,所以一定要在本地处理。但是,在相对复杂的场景,机器人对知识的依赖非常强,大量知识推理要依赖云端,中间的调度需要厂商决策到底是在边缘处理,还是在端侧处理,或者在云端处理,就要由厂商根据机器人的形态、具体场景和任务去决定。未来,本地核心的端侧模型、中间决策的模型以及边缘侧的模型,会跟云侧模型融合,共同完成机器人主动感知、主动任务执行主动交互。

陈晓春:从2022年开始,我们就在大模型领域和阿里云有非常深入的合作。手机作为智能终端,在过去的时代我们基于推荐搜索做了一些服务的智能分发,但是我们看到,大模型时代到来之后,尤其多模态大模型等一些新的形式出现,人机交互会出现一些革命性改变。比如,用户和手机交互,不一定要通过点触和语音的方式,还可以通过一些更智能方式实现理解用户意图并做出一连串的执行,以及通过理解界面上的信息实现更自然交互,这些都有赖于多模态大模型和AI Agent的能力。这些能力一部分可以端侧化,更多要依靠云端的一些模型。云端模型需要部署在离用户比较近、推理延迟比较低,算力充足的地方,所以不管是在算力侧、模型技术,还是在一些联合研发的项目上,我们一直在和阿里保持非常紧密的合作。

刘轶:我觉得有两点。第一,参考OpenAI是怎么成功的。OpenAI是在一个分享和众筹机制下,不同的人、不同的机构、不同的团体做出贡献,共同构建了OpenAI。我们现在也是一样,比如阿里云提供了通义的底座,它需要千行百业、各个领域的从业者,共同建设面向各自领域真正好用的垂直领域或者行业大模型。北科瑞声也是一样,和阿里云合作打造了求医、问药还有交通等垂直领域的行业大模型。

第二,当前硬件很多都是低功耗可穿戴设备,像手表、手环,甚至包括手机、Pad等,在大多数情况下,语音交互在这种低算力平台,只能是在本地做一些信号处理或者压缩编码,更多工作可能还是要到云端去处理,只要建立一个很好的链路,这对阿里云和众多硬件厂商而言,都是巨大的机遇。 

本文摘自《云栖战略参考》总第18期

扫码限时申领纸质版

↓↓

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

08:17

有银行紧急下调大额存单利率

08:15

武汉1亿成立城市发展科技公司,含多项AI业务

08:13

港股收评:恒生指数涨0.38%,恒生科技指数涨0.23%

08:10

上海家化:已回购614.31万股,使用资金总额9721.58万元

08:09

特斯拉美股盘前涨近4%

08:09

公募一季度分红逾675亿元,QDII基金分红暴增

08:08

地素时尚:已回购468.51万股,使用资金总额5638.45万元

08:08

奥锐特:已回购74.81万股,使用资金总额1493.08万元

08:08

极氪科技集团发布3月销量40,715台

08:07

阿里据悉秘密研发新模型Qwen3将发布,官方暂无回应

08:04

广汽丰田3月销量66066台,同比增长19.3%

08:03

央行:加快推动金融业反洗钱监管优化转型,建立健全金融机构洗钱风险管理体系

07:57

海正生材:已回购113.65万股,使用资金总额1099.93万元

07:54

宇树科技创始人王兴兴:蚂蚁集团投资宇树科技为不实消息

07:51

法国3月制造业PMI终值为48.5,预期48.9,前值48.9

07:51

三部门:支持科技型企业债券融资,推动保险机构投资资产支持计划等证券化产品

07:50

三部门:推进科技金融政策试点,支持保险公司发起设立私募证券基金投资股市并长期持有

07:50

三部门:鼓励银行加大科技型企业信用贷款和中长期贷款投放,灵活设置贷款利率定价和利息偿付方式

07:50

三部门:鼓励金融机构加强对国家重大科技任务和科技型中小企业的金融支持

07:50

三部门:适当提高科技金融相关指标在内部绩效考核中的占比,适当提高科技型企业贷款不良容忍度

扫描下载App