对话万兴科技董事长吴太兵：大模型2.0时代，持续淘金要两条腿走路

2023年，ChatGPT的火爆，吹响了新一轮AI竞赛的号角，国内更是掀起了“百模大战”。从市场的表现来看，无论是创业者，还是巨头企业，给出的态度都非常一致，不拥抱AI的企业没有未来。

不过，一年的时间过后，对于大众用户，大模型仍旧是一个熟悉的“陌生词”，说得多感知得少。并且，大多数企业做出来的大模型还停留在比排名的阶段，背后的含金量也只有自己心里清楚。

就像360集团创始人周鸿祎在开年抛出的观点一样，“ChatGPT出来的时候，所有人都觉得造大模型就是造原子弹，就是曼哈顿计划。但有了开源之后，到2023年年底，可能造原子弹的都发现自己实际上是在造茶叶蛋。”

对于很多做大模型的企业来说，周鸿祎的那句话虽然听起来不舒服，但却是现实。作为最早一批迈入AI赛道的行业老兵，AIGC软件A股上市公司万兴科技（300624.SZ）董事长吴太兵也认同周鸿祎的部分观点，“在开源的基础上做出来的大模型，给很多人错觉，真就能和ChatGPT站在同一起跑线一样。大模型远远还没有到走入神坛这样一个阶段。把大模型做小，去做应用，去商业化，才是行业的未来。”

当下，市场上的大模型基本是以文本大模型为主，华创证券在之前的研报中曾指出，多模态AI技术高速发展，文生图、文生视频能力未来可期，AI+绘图、AI+视频值得关注。

1月30日，国内首个音视频大模型万兴“天幕”正式对外发布，这是一个以音视频生成式AI技术为基础的多媒体创作垂类大模型，由视频大模型、音频大模型、图片大模型、语言大模型组成，聚焦数字创意垂类创作场景。

就在“天幕”多媒体大模型发布的前一晚，钛媒体App独家和吴太兵关于大模型未来的发展以及应用进行了深入的探讨。他表示，AI大模型的出现与发展是一个自然而然的过程，价值的释放也需要一定的时间。当下，大模型走下神坛也是有道理的，但只局限于在文本这个角度，大模型在音视频领域还存在很大的挑战。

万兴科技董事长吴太兵

“对于文本和视频大模型来说，二者的训练量级根本不在一个水平上，一些宣称多模态的产品也都是处于Demo的状态，并不成熟。大模型正在进入2.0时代，这个时代需要新的大模型，需要一个以音视频为主的而且本土化、垂类的大模型。万兴的‘天幕’是多媒体大模型，跟文本形成了区别，对算力要求更高，当然技术也更复杂。结合当下的技术以及应用场景来看，未来视频也会是主流。”

大模型“走下神坛”，进入2.0时代

据Gartner研究预测,到2030年,90%的数字内容都将是AI生成，预计2032年,全球AIGC市场规模将由2022年的108亿美元增加至1181亿美元。在AI的加持下，数字创意软件产品是爆发式增长，而AIGC的背后就是大模型，相当于电器时代的发电厂，起到至关重要的作用。

也正是因为这样，在过去的一年，大模型呈现井喷式增长，大家会觉得大模型的春天到了。根据《北京市人工智能行业大模型创新应用白皮书（2023年）》显示，截至2023年10月，我国10亿参数规模以上的大模型厂商及高校院所共计254家。上百家大模型厂商也进一步催生出数十亿的市场价值。可以预计的是，大模型在今年也将持续火热下去。只是，在火热的背后，也要认清行业的变化。

而在讨论变化之前，要先理解大模型的“大”到底指的是什么？大模型扮演的角色是什么？吴太兵认为，大模型的“大”肯定是参数多、结构容量大，但这个“大”永远是一个相对概念，比如文字和视频不是一个量级，不同行业的文本训练也不是一个量级。

至于大模型所扮演的角色，也要先对AI的发展有一个相对一致的理解。在吴太兵的理念中，这一轮的AI技术热潮并不是偶然的，而是IT行业演进的必然。“IT行业从1993到现在经历了30年的时间，这30年时间可以分为三个阶段，每一个阶段都有自己的特点。”

第一个阶段，是Windows所代表的PC时代，是一种人机交互，人为去向机器输入信息。第二个阶段是互联网时代，人与人交换信息，主要的目的在于交换。第三阶段则是AI时代，在读懂人类的需求后，机器给人输出信息。

“AI的发展是一个顺其自然到来的过程，试想一下，OpenAI就像是苦读N年的莘莘学子，终于可以开始挣钱养家了，在前30年接收各式各样的信息后，开始有了独立的思维，形成了自己的一套系统化的框架。”

在外界还在观望这一轮AI热潮时，万兴科技选择第一时间投入进去。值得一提的是，在此之前，万兴科技也已在AI算法以及算力方面有所积累。从大模型出现，到融合大模型去推动业务的发展，吴太兵对1.0时代大模型所扮演的角色也有了更深入的理解。

“后来我慢慢理解了，大模型本质上相当于一个炼钢厂，通过高温萃取之后，得到一些精华的产物。它的价值在于把海量’原材料’炼出’原材料’，但是这些’原材料’本身是不能直接使用的。”

吴太兵对钛媒体App说道，从来没见过哪个炼钢厂扔一块铁进去以后，最后就出来一辆汽车了。1.0时代的大模型其实只解决了上游的原材料的问题，下游的组装是解决不了的。基于大模型，还要有更多的垂直应用。

“大模型在音视频垂直领域还存在很大的挑战。基于这样一个想法，我坚定地认为，大模型正在从图文1.0时代进入到以音视频多媒体为载体的2.0时代。”

根据思科公司此前发布的报告内容指出，未来82%的消费互联网流量是视频流量。如果从文本的角度来看，大模型的发展的确已经很成熟，但是从视频的角度来看是远远不够的。目前，全世界有3.05亿视频创作者，43亿视频覆盖群体，每天200亿次以上的视频播放量，视频需求非常大。“视频为王”时代的到来，也催生出对多媒体垂直大模型和应用的需求。

吴太兵进一步指出，“1.0时代，通用大模型占主流，好比‘科学家’，主要研究前沿高端，解决基础理论性问题。2.0时代，垂直大模型增长趋势明显，好比‘工匠’，可更快速、更灵活解决细分领域专业性问题，可从模型到应用场景对用户一条龙赋能。”

聚焦数字创意垂类创作场景，“天幕”大模型已在海外商用

相比较文本生成，视频生成大模型以及应用由于数据、算力等多方面原因，导致产品数量较少，以及效果并没有大家期待的那么完美。

吴太兵认为，音频大模型情感理解存在偏差，视频生成大模型生产内容长度、一致性待提升，难形成完整的工作流。OpenAI在发布大模型之时就提出了多模态，但在视频生成的满意度上较低。即便是Pika labs这种火热的产品，也存在明显的拖影、模糊等问题，质量非常不理想。

总的来看，视频生成目前存在三大挑战。第一是数据集欠缺，视频内容存储和标注成本高昂，视频相关的训练数据集目前仍较欠缺。第二是算力成本高昂，视频训练所需的算力远高于图片、文字等其它内容。第三则是生成效果不佳目前仍缺乏效果可用性较好的模型作为标杆。

“之所以行业投入那么多研发，在视频维度还存在着么多问题，背后核心的原因就在于视频生成十分复杂。”

钛媒体App了解到，视频由很多能力和元素构成，包括动画、字幕、音乐、特效、美化、贴纸、转场、画中画，还有顶层资源、颗粒等，很复杂。整个视频制作的链路、技术门槛非常高，平均制作一个视频需要1.6小时。在构思阶段，可能需要用GPT或者文心一言，做内容源需要本地拍摄，需要获得资源方便去做加工，需要第三方工具，进行效果生成，还要算力、做编解码，总之一切没那么简单。

在大模型2.0时代，做出符合市场的大模型产品，首先要搞清楚2.0时代的特点是什么。吴太兵总结了三点，第一是从多模态到多媒体，系统性解决不同模态融合的问题。在他看来，多模态还是一个通用大模型，通过一套东西把文本、视频、音频、图片全部打通，也许有可能，文本大模型从供给和使用角度体验已经很好了，但是音视频的体验还远远不够，市场需要多媒体大模型。

第二是从通用到垂直解决方案，一条龙从模型到应用场景。“通用的大模型只适合生产原材料，生产一张图片、一段音频，但还是需要“组装车间”把它最后变成一款产品，多媒体大模型上面有一系列原子能力，通过组装件最后变成最终的产品”，吴太兵表示，“指望向一个工厂扔进一些铁矿石，出来一辆汽车是不现实的。扔进去的铁出来的是钢材，扔进去的石油出来的是化工产品，但这些东西离你真正做成一辆汽车还有很远的距离，这中间的距离就是垂类大模型需要去做的，而不是通用性的化工厂、炼钢厂能去解决的问题。”

第三则是从全球到本土化，算力、数据、应用的本土化。过去，大家指望通过一个大模型去解决全世界的问题，但是现在来看，基本是不可能的。在应用的层面，需要算力的本土化布局，需要本土化的数据，才能研发出更本土化的应用。

“今天，我们要重视大模型本身的应用商业化，而且要高度重视中国的应用场景。结合我们所用的数据和应用产品，参与全球竞争的时候才更能找到自己的位置。”

依托于大模型2.0时代的三个特点，万兴科技推出了“天幕”音视频多媒体大模型，聚焦数字创意垂类创作场景，基于15亿用户行为及100亿本土化音视频数据，以音视频生成式AI技术为基础，支持全球不同语言，相关能力已在海外规模化商用。

吴太兵向我们透露，万兴“天幕”大模型将打造基于大模型架构的AIGC应用基础底座，自投入研发以来，组建了百人算法团队，团队硕士和博士的比例超过70%，“天幕”大模型算法也已正式通过《互联网信息服务深度合成管理规定》备案。

另外，算力作为大模型的根基，万兴“天幕”还在持续加码NPU+GPU强力算力底座，训练则是在国内算力和服务器基础上进行，已构建千卡集群、自研推理框架局，并拥有一站式数据生产管理平台，单日可完成百万级数据处理加工。

做AI时代的美的，不需要每一款产品都做到NO.1

站在新的发展阶段，万兴科技给自己的定义是一家以技术为基础的产品创新驱动公司，相比较技术公司，更加强调市场。“我们以产品创新为主，并不代表不关注技术，我们到长沙来也是为了吸引以及留下更多的技术人才，‘拿深圳工资，住长沙房子，干全球事业’，这是我们提出的口号”，吴太兵说道。

而面对当下市场出现的多元化竞争格局，如何在AI时代持续地淘金，成为摆在很多公司面前的问题。在吴太兵看来，让自己不掉队需要做到两条腿走路，一条腿是后端的技术赋能，比如大模型、算法、算力等，另一条腿则是对前台市场机遇的把控。

“除了原有的运营中心以外，我们还在大力招募本地化的产品和市场团队，希望能加速感知到市场的变化。而站在产品的角度，万兴的逻辑则是矩阵化产品思维，不需要每一款产品都做到第一，前三就可以，‘中产品’的战略也能让我们做到更大的规模。”

用传统的思维去看待大模型，而不是把其放在一个高大上的位置去仰望。很多人对大模型这件事非常地兴奋，特别想去搏一把，因为他们认为这可能是最接近成为比尔盖茨、乔布斯的机会。但是，在吴太兵的设想中，大模型的确很重要，也是需要抓住的机遇，但万兴想做的是AI时代的美的，通过矩阵化的产品创新，将自身以及市面上优秀的大模型的能力整合起来。

他表示，“我们有大平台，在正确的方向上，可以做N款优秀的产品，这样才能真的去拥抱这个新时代。”

在交流的最后，吴太兵还谈及了“中国的Adobe”这个称号，他认为这是市场贴的，但自己对于这种对标并没有太排斥。用他的话说，对标是为了减少品牌与市场的沟通障碍，可以让市场更快地知道万兴是在做什么。

不过，世界上没有两家完全一模一样的公司，万兴要走的路也和Adobe不一样，“我们更期望做的是未来的Adobe，一是有AI驱动力，二是立足中国市场。还是那句话，布局AIGC,我们是认真的，也希望更多的生态伙伴参与到多媒体大模型的建设，让整个行业更繁荣。”（本文首发钛媒体App，作者/杜志强，编辑/钟毅）