格灵深瞳赵勇：论大模型时代的AI产品进化 | 2024 ITValue Summit数字价值年会-钛媒体官方网站

9月11日-14日，由钛媒体与ITValue共同主办的2024 ITValue Summit数字价值年会在三亚举行。此次峰会主题为“Ready For AI”，交流经验教训，交叉行业思考，推动创新交易，以创新场景为基础，共同探索AI驱动下数字经济时代的全新机遇，共同打造一场数字经济时代的AI创新探索盛宴。

格灵深瞳创始人、董事长、CEO赵勇以《是虚假繁荣还是爆发前夜？论大模型时代的AI产品进化》发表了主题演讲。他表示，格灵深瞳要做一家AI时代的产品公司，在泛安防、工业检测、人机交互等领域持续深耕，深度理解用户和场景，用好的产品为广大客户创造更大的价值。

赵勇指出，之前AI之所以落地难，主要原因在于交付成本高、有效数据少、泛化能力弱。而大模型带来的是一个构建行业AI应用的全新技术范式。

用大模型解决物理世界中的原子操作问题，可以做到99.99%的体验感。并且在该领域，未来3-5年会出现一批优秀成果，能够基于人工智能生成物理世界的API。

当然，技术只是基础，产品和场景才是应用落地的关键。

以下为格灵深瞳创始人、董事长、CEO赵勇演讲实录，经钛媒体编辑整理：

今年，红杉资本分享的一项数据发现，仅过去一年，AI公司购买英伟达GPU的花费就已经超过500亿美元，而目前所有AI公司产生的营收总和却远低于这个数值。这意味着，AI行业的落地还在早期，还没有出现真正意义上的killer app。

那么AI落地难在哪儿？以自动驾驶为例，2009年我博士毕业后，花了很大精力解决谷歌自动驾驶项目中有关视觉算法的问题。十年过去，中国仍未出现一家真正规模化商业运营的自动驾驶汽车公司。我们离真正安全且可商用的无人驾驶还有较长的路要走。

相较之下，AI在安防领域取得了一定成功。市场需求推动了安防产品的发展，也给国内的AI公司带来了第一次大规模商业落地的契机。

NLP领域也曾经历“百箱大战”，但很多用户购买了智能音箱后发现，产品远未达到自己预期的智能交互水平。去年大模型的涌现，智能音箱产品的性能有所提升，包括在汽车场景下的语音通话能力也有所增强。这让我又有了新的期待。

总结来讲，过去AI之所以落地难，主要原因在于交付成本高、有效数据少、泛化能力弱。

而大模型带来的是一个构建行业AI应用的全新技术范式。大模型理论上可以通过付出较少的成本，来高效解决长尾需求从而降低交付成本，通过通用能力来解决少样本数据的问题，同时大幅提升模型的泛化能力。举几个例子。

格灵深瞳在银行安防领域深耕多年，在视频智能化应用这个细分领域做到了行业第一，过去几年为客户开发了几十个场景算法，公司自研的视觉大模型在银行这个场景落地后，很多算法的性能和稳定性得到了极大的提升；在轨道交通领域，公司研发的巡检机器人主要应用于高铁、地铁等列车的日常巡检场景，检测识别列车的零部件缺陷、故障等，但是这些真正有价值的负样本数据量不大，且很难穷举，因此以前我们的做法是跟客户一起去造一些负样本数据，比如故意弄坏一些零部件，然后作为负样本数据进行标注，但这样的效率很低。现在，我们用AIGC的方式生成了大量的负样本数据，同时轨交大模型上线后，相关算法的准确性得到了显著提升，轨交运维场景的很多长尾需求也得到了解决；在教育领域，格灵深瞳服务于学校的体育教学和考试场景，体育的项目很多，跳绳、仰卧起坐、篮球、游泳、踢毽子等，以前的模型泛化能力不强，因此我们需要针对每一个项目采集数据，训练模型，大模型能很好地解决这些问题。

有一点我需要提一下，我们通常理解的大模型往往代指的是大语言模型，目前的应用主要集中在聊天机器人和AI助手等轻量级应用上。但实际上，大模型并不仅仅包括大语言模型，视觉大模型和多模态大模型在产业界有更大的想象空间。

在算法层面，大语言模型的智能涌现有其原因。本质上，NLP研究的是人类符号语言，它本身就具备语义，大量的互联网内容都是由文字构成，而这些信息同时又是广泛开放且容易获取的。文本数据可以做无监督训练，因此在纯数字世界做机器学习相对简单。

让我们把视线从数字世界转移到物理世界。在视觉领域，摄像头捕捉的往往是物理世界中的自然数据，视觉数据不能直接用于无监督学习，且规则约束永远无法穷举，而行业数据又无法通过公开渠道获取，因此大模型在物理世界中的应用价值更大。与此同时，人工智能技术在物理世界中的交付，比数字世界要难。但是越难走的路，往往走通后的收获越大。尽管从视觉数据中获得Insight，比文本信息更难，但相应的价值更高，也更值得做。

与数字世界不同，物理世界不存在一个稳定可靠的API。今天，我们的方法是用大模型解决物理世界中的原子操作问题，然后在上层去做组合应用，从而解决不同复杂场景下的问题，这样可以做到99.99%的体验感。并且在该领域，未来3-5年会出现一批优秀成果。这也是格灵深瞳未来几年的工作重心。

而在数据方面。数据孤岛问题的形成原因之一是，客户不愿意将数据分享出来。我的建议是，如果想推动数据孤岛问题的解决，大客户最好直接找科技公司交付项目，不需要太多集成商作中间商去交付。这会增加数据流动的障碍。此外，模型训练需要非常多标注数据，今天人工标注成本依然很高，我们多年前就开始用自动标注的方式来处理数据。

此外，我认为行业Insight跟行业数据一样重要。去年OpenAI的CEO说过一段话，我挺反对。他说，大模型出来后，所有的产品经理会失业，不需要太多套壳应用。但在我看来，对场景、客户以及业务流程的深刻了解，还是极其有价值的，只有那些愿意躬身沉入到行业中的公司才能真正解决客户的问题。一方面把AI算法与特定行业场景深度融合的经验，是难以在短期内获得的；另一方面，跟很容易从开源数据学习到的语言信息不一样，视觉的东西没见过或者没做过，你就是不知道，只有深耕行业，才能积累到足够多的有效数据。大模型再厉害，也无法替代产品文化，未来优秀的产品经理和产品文化，对交付AI产品来说极其重要。

算力方面。今天最强大的H100的CUDA核数量也只有1.5万个，而人脑神经元的数量约1000亿个，差距非常大。大模型的潜力还没有被充分挖掘出来。

但是，如果每个场景都通过大模型进行实时视觉处理，非常不现实。大模型很重要，但它不能独立地主导一切，相当长一段时间里还需要小模型。而它又不同于传统深度学习的小规模模型，现在更多是依赖于大数据，在场景里通过大模型蒸馏出小模型，实现轻量部署。同时，在中心端用大模型去弥补小模型带来的性能差异。所以，我们在产品落地时采用了很多方法来分散算力，在边缘侧用小模型处理实时任务，在中心端侧用大模型验证，这种模式成本比较低。

当然，归根结底，技术只是基础，产品和场景才是应用落地的关键。唯有深耕行业，AI才能开花结果。格灵深瞳致力于做一家AI时代的产品公司，在泛安防、工业检测、人机交互等领域持续深耕，深度理解用户，理解场景，用好的产品为广大客户创造价值。

格灵深瞳赵勇：论大模型时代的AI产品进化 | 2024 ITValue Summit数字价值年会

敬原创，有钛度，得赞赏