端侧模型，可能是消费级AR眼镜最需要的Killer App-钛媒体官方网站

文 | AR研究媛

颠覆一个行业的，往往是从没见过的新物种。特别是这个行业如果一直原地踏步，它更需要去其他地方寻找“灵感”。

昨天国内融资最多的一家AR公司产品负责人有点兴奋，找到我聊了聊国内一家大模型公司刚刚开源的端侧模型，面壁小钢炮2.6，因为这款模型有消费级AR眼镜一直想嫁接的能力：在眼镜有限算力和内存限制下，实时的视频流理解和单图、多图理解能力，always-on 那种，而且不需要联网。

Github开源社区信息显示，面壁小钢炮2.6，仅仅6-7 GB 内存就可运行，它的实际效果如何，如图

端侧模型实时视频理解case 1

端侧模型实时视频理解case 2

这家国产大模型公司，其实就是前段时间闹的沸沸扬扬、被斯坦福学生抄袭的面壁小钢炮端侧模型，不过5月份被抄袭的版本是面壁小钢炮2.5，最新的2.6版本昨天在Github开源了。

端侧模型开始被大模型公司和硬件厂商重视，这让我开始渐渐体验到两个趋势：

大模型和小模型开始“分化”，各司其职。
对于消费电子厂商来说，大模型的应用 AIGC只是开胃菜，消费电子终端Agent化渐成趋势。

大模型和小模型开始“分化”

国内国外的大模型公司，都在卷参数量、把规模做大，都在尝试文生视频、图生视频，在打工摸鱼最需要的AIGC能力上。面壁智能这家公司比较有趣的是，它喜欢另辟蹊径，去年年底就开始就重点发力端侧模型。

公开媒体报道，面壁联合创始人、清华副教授刘知远和他的团队，是中国最早一批预见到“大”模型有关键技术突破并且快速反应的，他和他的团队做大模型时间很早，这个超前有半年到一年半左右的时间差。刘知远在做云端大模型，追赶GPT-4的过程中发现，如果仅仅是堆砌算力和参数量，纯粹靠Scaling Law，大概率是跟在别人后面吃尾气。

刘知远提出的是大模型科学化，对大模型的底层洞察，能够在衡量一个模型Scaling基础上，给出一个相对精确的性能预期。他提出了一个衡量指标是“知识密度”，类比芯片制程不断迭代过程中晶体管密度的增长。

对于大模型，单纯追求参数量“大”，这种竞争维度比较低，太单一了，更高知识密度的“小”模型，可能才是最适合后起的大模型创业公司做纵深、做积累、挖掘护城河的方向。就像芯片制程要不断的试错，不断的积累认知，积累know-how，优化每一个工艺流程，最终提升良品率。“小”模型不断迭代，更小的参数上获得更高的性能，这是少有人率先反应过来的正确方向，因为它最终导向的就是大模型“落地”。这个“小”模型，目前看到的最大的应用方向就是端侧模型。当然面壁这家公司的另一个标签是“Agent"，融合了大模型能力、具备感知记忆、自主规划、调用工具、任务执行能力的智能体，也是导向大模型“落地”。

一个形象的比喻，大模型未来应用方式更可能是“章鱼式”的。章鱼有八个附脑一个主脑，有两个记忆系统，云端大模型和端侧模型，对应的就是章鱼的“主脑”和“附脑”。面壁开源的小钢炮2.6 就是那个章鱼触手的“附脑”，这次进化出了实时视觉“理解”、单图、多图理解，物理世界推理能力有显著提升，仅仅8B的参数，在20B以下的模型中，这三项测试登顶了。

AIGC只是开胃菜，消费电子终端Agent化渐成趋势

按《思考：快与慢》的论述，人的大脑有两个系统，“快”思考和“慢”思考，“快”思考负责快速的、直觉式的、固定范式知识压缩能立即给出解答的，“慢”思考面对的则是复杂、不常见的情况，需要有步骤分解、逻辑推理、综合信息缓慢给出的答案。“快”思考对应的是端侧模型，“慢”思考则对应的是云端模型。

图片来自Coatue报告

比如AI PC和AI Phone等消费电子终端应用的端侧模型。在特定的场景下，对通用性要求低，主要追求的是低延时（完成推理过程所需要的时间尽可能短）、低功耗。根据被广泛引用的Coatue 报告，大模型的训练和推理，是两个截然不同的阶段，未来大部分的AI推理需求将从云端中心逐步转移到边缘侧，形成去中心化的推理网络，Coatue 报告预计未来 90%的推理任务会发生在你的手机和PC上，对日常工作生活的任务请求进行实时响应。

小模型和端侧模型，这股风其实是从硬件厂商吹到的大模型公司。联想从23年初就开始推AI PC，三星在S24 Ultra重点加入了AI能力，微软推Copilot，法国的Mistral成为大模型的“欧洲之光”，2024 年 6 月苹果发布的个人智能系统 Apple Intelligence，直到最近 Open AI 也"跟进"做了小模型 GPT-4o mini。

以Apple Intelligence为例，从战略定位来看，Apple Intelligence 定位为系统级产品，高于 Siri等单独的功能或服务。苹果公司会将生成式 AI模型集成到iPhone、 iPad和苹果电脑的iOS系统中，在几乎所有应用中打通 AI 功能，让智能硬件从底层理解用户。

Apple Intelligence 主要在三个方面“测试”用户需求，AIGC的文字创作，AIGC图片生成，Siri语音助手向Agent个人管家演化。Apple Intelligence 其实也是大模型落地的PMF测试。

首先是智能写作，能够让用户在几乎任何场景下对文本进行改写、校对和摘要生成，包括邮件、备忘录、文稿及各类第三方 App，用户还可自定义写作风格，如“更友善”、“专业性强”、“像诗歌一样”等。文字汇总方面，用户可以在几秒钟内总结整段讲座、会议、邮件的内容。此外，还能够帮助用户自动管理消息通知。

其次是智能生图，借助于AI生图应用 Image Playground，可支持手绘、插画和动画三种风格的图片生成，内置于所有的系统 App中，如备忘录、无边记等。

以及融合了大模型能力后，Siri 和系统体验的结合加深。交互方式上，Siri 将支持文字、语音等多种模态交互。Siri 将针对用户长期的手机使用习惯进行适配，比如，将能够理解用户的碎片化表述，为连续的请求沿用语境场景，以及能够理解用户在不同 App 中的使用习惯和内容，并根据其进行操作。经过使用时长的积累， Siri将实现完全基于用户个人和设备端信息的智能化，成为用户的“贴身管家”。

总的来说，云端的大模型和设备端的大模型，云端的综合能力更强，但是只能以用户Promt的形式一问一答，被动且能力单一。设备端的大模型，离用户更近一些，能够实时处理终端生成的大量多模态数据，也可以把数据保存在设备本地，隐私性好，而且可以“接管”设备在系统层面调用各种App。

以智能手机为代表的消费电子终端集成了大量传感器Senor，生成大量的实时多模态数据，可作为大模型的“输入”。如今一部智能手机上的算力和内存越来越高，集成了大量的App，覆盖吃穿住行的各种功能，可以被大模型所调用。

感知记忆、自主规划、调用工具、任务执行，大模型落地的Agent，所有环节渐渐都能够打通，消费电子终端Agent化渐成趋势。

这其中，端侧模型是那个最大的不确定因素，也是瓶颈所在。随着大模型不断Scaling up，推理所需的计算和存储开销也在快速增长，然而终端上内存资源很有限，这就导致我们很难在终端上直接运行本地大模型。比如一个7B参数的模型大约需要14GB的内存来加载模型权重。

还有，摄像头、麦克风、dToF雷达、深度相机、陀螺仪，终端设备实时生成的各种模态数据处理，Always-On 对于计算、内存、耗电、发热的精准控制，对于端侧模型、硬件厂商均提出了很高的要求。

图为一体式消费级AR眼镜 INMO Air 2

端侧模型，其实是一场技术含量很高的、大有可为的竞赛，无论对于消费电子厂商还有大模型公司，均意义重大。

端侧模型，可能是消费级AR眼镜最需要的Killer App

大模型和小模型开始“分化”

AIGC只是开胃菜，消费电子终端Agent化渐成趋势

敬原创，有钛度，得赞赏