大模型2.0时代的优化与突破-钛媒体官方网站

图片来源@视觉中国

文 | 贝克街探案官，作者 | 车行运

今年6月份，各大厂商纷纷升级自家的类ChatGPT产品。6月9日，讯飞推出星火认知大模型升级版；6月13日，360在发布类ChatGPT产品之后，再次举行360智脑大模型应用发布会。

与2月左右发布的大模型不同，近期各家公司发布的升级版产品，更偏向应用层目的是更容易走向千家万户。

从目前发布的情况来看，360智脑已初步具备跨模态⽣成能⼒，除了可以完成文字生成文字、表格、图片；图片生成文字、图片，以及视频生成文本，文本剪视频等基础创作之外，还重新定义“数字人”，给用户一种“有灵魂、有⼈设、有记忆”可定制的专属“人工智能”。

目前360智脑与用户距离最近的应用场景，是360现有的全家桶，周鸿祎在发布会表示，“360智脑4.0”会接入360安全卫⼠、360浏览器、360搜索等，试图重塑人机协作。

在发布会上，周鸿祎更改了此前观点，“我曾经说过，国产大模型与ChatGPT之间的差距是两年，现在我想收回这句话。”随后补充最新观点，认为目前国产大模型的水平与GPT3.5大打平，照此速度发展，追赶甚至超过GPT4将在转瞬之间。

从发布初始版本至正式发布360智脑的四个月内，周鸿祎看到了会有如此巨大的转变？

01 科技大厂围猎大模型

在2023中关村论坛上发布的《中国人工智能大模型地图研究报告》显示，当前，中国人工智能大模型正呈现蓬勃发展态势。据不完全统计，截至目前，参数在10亿规模以上的大模型全国已发布了79个。

而科技大厂的大模型参数量较大：阿里通义千问大模型参数在10万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参数量在2千亿级以上、京东言犀大模型的参数量为千亿级；垂直行业科技企业已经上线的参数量普遍在千亿级以上；而科研院校大模型的参数量在千亿级及以下。

从大模型的布局体系来看，科技大厂在算力层、平台层、模型层、应用层进行了四位一体的全面布局。百度、阿里、华为三家均从芯片到应用进行自主研发的全面布局，如百度的“昆仑芯+飞桨平台+文心大模型+行业应用”、阿里的“含光800芯片+M6-OFA底座+通义大模型+行业应用”、华为的“昇腾芯片+MindSpore框架+盘古大模型+行业应用”。

此外金山办公5月31日还发布了WPS AI，目前，WPSAI已接入金山办公旗下办公组件轻文档、文字、表格、演示、PDF，未来将锚定AIGC、阅读理解和问答、人机交互三个战略方向发展，并接入金山办公全线产品。
各家大厂迅速涌入这个赛道，主要是因为监管层迅速跟进出台措施规范行业发展，有顶层架构保驾护航，各家大厂自然可以放心投入研发，并推出产品。

自今年3月大模型批量上线以来，AI监管政策逐渐明晰，这也给行业应用指明了方向。

回顾整个行业发展历程，4月11日，《生成式人工智能服务管理方法》征求意见稿发布；5 月 30 日，信通院正在联合编制“纸鸢”开放人工智能模型许可证，下一步将发布《纸鸢开放人工智能模型许可证（征求意见稿）》。

随后，一线城市配合发布了《北京市加快建设具有全球影响力的人工智能创新策源地实施方案（2023-2025 年）》；《深圳市加快推动人工智能高质量发展高水平应用行动方案（2023-2024 年）》。

在此背景下，周鸿祎认为国产大模型将会迅速缩小和ChatGPT的差距，似乎也好理解了。

03 360智脑有何不同

按照周鸿祎的规划，360大模型将在持续升级大模型的基础上，兼顾场景化、产品化、平⺠化、垂直化。

这种发展战略下，360智脑可以实现对消费者（⽤户个⼈AI助理）、中⼩微企业（SaaS化垂直应⽤）、企业/政府/城市（私有化部署⼤模型）、⾏业（⾏业垂直⼤模型）等四个主要应用场景的覆盖。

上述四种不同场景的应用，主要通过其他公司在360大模型API基础上，结合不同行业需求推出特定产品。现阶段，很多部门、企业内部拥有大量独占性IP，如果将其统统放到一个公开大模型中，就会重现三星因GPT泄露芯片机密的事件，这就凸显了专有类GPT产品的重要性。

想要更好满足上述不同场景的需求，通用大模型需要在现有基础上，完成从输入文字输出文字，到看懂图像、视频，并能产出图像、视频的转变，相当于让大模型具备了“耳朵”和“眼睛”，为创建“数字人”打下基础。

传统数字人只需要按照既定脚本输出，但在大模型时代，360的数字人可定制，因此⼈设、有记忆、有经历，目前在360数字⼈⼴场平台中，已经有200多个⻆⾊，分为数字名⼈和数字员⼯两个种类。360希望未来可以让每个⼈都有自己的AI助理，并有机会在虚拟空间内，跨越时空，和古人交流。

在演示会上，周鸿祎问“诸葛亮”怎么看今天成为鬼畜素材，数字人以诸葛亮的口吻回复：夫古今之命，乃实事所必然也。今之时势，天下纷扰不已。吾虽已老，仍志在天下。今者年轻人以吾为鬼畜素材，吾欣然接受此变化。并祝愿年轻朋友在未来的道路上勇往直前，开创更加美好的未来。

同时周鸿祎还强调，未来数字人的形态还会有⾃⼰的⽬标、规划和分解的能⼒，从而可以调⽤各种垂直的模型完成任务。

不过这些功能其实都是在现有大模型应用基础上的优化，并没有开辟一个全新的领域。但实际上，当大模型取得突破后，最具创造性的应用场景是无人驾驶。

03 无人驾驶有机会驶入快车道

回顾无人驾驶领域，自从2016年开始，各大厂商都在布局这个领域，但是直到今年也没有一家可以实现真正的无人驾驶。

目前一辆L2+级别的无人驾驶系统需要10+颗摄像头；1-2颗激光雷达；或3-5颗毫米波雷达提供的多维度数据，人工标注数据之后才能用于模型的训练。在可识别影像的大模型出现之后，人工标注所需要的时间成本和物质支出将会骤然下降。

据2023年4月毫末智行DriveGPT发布会显示，目前要得到对诸如车道线、交通参与者、红绿灯等信息，行业人工标注的成本约每张图为5元，毫末DriveGPT的成本为0.5元。我们认为科技公司大模型训练成熟后，单张图自动标注的边际成本趋近于0，平均成本有望进一步下降。

据恺望数据产品项目副总裁张鹏在2023年2月的介绍，目前数据标注以人工标注为主，机器标注为辅，95%的数据标注还是以人工为主。大模型的介入，可以极大地提升这个行业的效率。以特斯拉为例，2021年人工标注团队为1000多人，2022年该团队裁员200余人。

除此之外，大模型时代，第三方科技巨头有望通过提供完善的工具链，帮助整车厂构建自己的自动驾驶算法和数据闭环系统，同时依靠大模型的数据生成能力缩小在数据领域的差距，自动驾驶的安卓时代有望来临。

目前，大模型已经被用于赋能数据闭环、仿真、感知算法、规控算法等领域。而巨头如微软、英伟达在大模型和自动驾驶争相布局，或将擦出新的火花。

此外大模型的出现也促进行业分工，避免“重复造轮子”，同时加速传感器和芯片迭代，系统成本有望大幅下降。大模型开发者和自动驾驶产业链玩家有望全面受益。

以百度Apollo为例，其首先利用图文信息预训练一个原始模型，利用算法将街景图像数据进行物体识别并定位和分割，放入编码器形成底库，即基于街景建立一个图片和文字信息对应的数据池。

其次可以通过文本、图像等形式对特定的场景（如快递车、轮椅、小孩等）进行搜索和挖掘，对车端模型进行定制化的训练，大幅提升存量数据的利用效果。

百度用半监督方法，充分利用2D和3D数据训练一个感知大模型。通过在多个环节对小模型进行蒸馏，提升小模型的性能，同时通过自动标注给小模型定制化的训练，用来增强远距离视觉3D感知能力、提升多模态感知模型的感知效果。

另一家头部玩家商汤科技也曾公开表示，可以用AIGC生成真实的交通场景以及困难样本来训练自动驾驶系统，以多模态数据作为大模型的输入，提升系统对Cornercase场景的感知能力上限。

同时自动驾驶多模态大模型可做到感知决策一体化集成，在输出端通过环境解码器可对3D环境进行重建，实现环境可视化理解；行为解码器可生成完整的路径规划；动机解码器可用自然语言对推理过程进行描述，使自动驾驶系统变得更加安全可靠。

大模型实现上述功能后，未来无人驾驶门槛会越来越低，头部厂商加速无人驾驶项目进程的同时，还可以让更多新玩家加入这个领域，并开拓除道路导航外，需要道路规划功能的赛道，比如进一步优化扫地机器人的路径规划。

现在看，在经历二月至三月的大模型集中发布期、四月至五月的产品研发期和政策方向逐步明确后，六月已经进入AI大模型产品和应用有望迎来集中发布期，这也直接导致OpenAIAPI降价。

在可预期的未来，AI技术仍然在持续迭代，应用也在持续推进，同时越来越多科技大厂推出产品切入这个赛道，还将继续助推行业景气度上升，并给用户带来更贴合市场需求的类GPT产品，比如拥有庞大用户群的腾讯6月19日也发布了大模型领域的技术方案。

当这些从业企业一起卷的时候，行业发展进入快车道的同时，也意味着C端用户将会很快就能用上这个产品，至于会为谁付款，就需要各家厂商自凭本事了。（本文首发钛媒体APP）