2024 T-EDGE文章详情页顶部

对话万兴科技董事长吴太兵:大模型2.0时代,持续淘金要两条腿走路|钛媒体独家

大模型正从图文时代1.0,加速进入到以音视频多媒体为载体的2.0时代。

2023年,ChatGPT的火爆,吹响了新一轮AI竞赛的号角,国内更是掀起了“百模大战”。从市场的表现来看,无论是创业者,还是巨头企业,给出的态度都非常一致,不拥抱AI的企业没有未来。

不过,一年的时间过后,对于大众用户,大模型仍旧是一个熟悉的“陌生词”,说得多感知得少。并且,大多数企业做出来的大模型还停留在比排名的阶段,背后的含金量也只有自己心里清楚。

就像360集团创始人周鸿祎在开年抛出的观点一样,“ChatGPT出来的时候,所有人都觉得造大模型就是造原子弹,就是曼哈顿计划。但有了开源之后,到2023年年底,可能造原子弹的都发现自己实际上是在造茶叶蛋。”

对于很多做大模型的企业来说,周鸿祎的那句话虽然听起来不舒服,但却是现实。作为最早一批迈入AI赛道的行业老兵,AIGC软件A股上市公司万兴科技(300624.SZ)董事长吴太兵也认同周鸿祎的部分观点,“在开源的基础上做出来的大模型,给很多人错觉,真就能和ChatGPT站在同一起跑线一样。大模型远远还没有到走入神坛这样一个阶段。把大模型做小,去做应用,去商业化,才是行业的未来。”

当下,市场上的大模型基本是以文本大模型为主,华创证券在之前的研报中曾指出,多模态AI技术高速发展,文生图、文生视频能力未来可期,AI+绘图、AI+视频值得关注。

1月30日,国内首个音视频大模型万兴“天幕”正式对外发布,这是一个以音视频生成式AI技术为基础的多媒体创作垂类大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,聚焦数字创意垂类创作场景。

就在“天幕”多媒体大模型发布的前一晚,钛媒体App独家和吴太兵关于大模型未来的发展以及应用进行了深入的探讨。他表示,AI大模型的出现与发展是一个自然而然的过程,价值的释放也需要一定的时间。当下,大模型走下神坛也是有道理的,但只局限于在文本这个角度,大模型在音视频领域还存在很大的挑战。

万兴科技董事长吴太兵

万兴科技董事长吴太兵

“对于文本和视频大模型来说,二者的训练量级根本不在一个水平上,一些宣称多模态的产品也都是处于Demo的状态,并不成熟。大模型正在进入2.0时代,这个时代需要新的大模型,需要一个以音视频为主的而且本土化、垂类的大模型。万兴的‘天幕’是多媒体大模型,跟文本形成了区别,对算力要求更高,当然技术也更复杂。结合当下的技术以及应用场景来看,未来视频也会是主流。”

大模型“走下神坛”,进入2.0时代

据Gartner研究预测,到2030年,90%的数字内容都将是AI生成,预计2032年,全球AIGC市场规模将由2022年的108亿美元增加至1181亿美元。在AI的加持下,数字创意软件产品是爆发式增长,而AIGC的背后就是大模型,相当于电器时代的发电厂,起到至关重要的作用。

也正是因为这样,在过去的一年,大模型呈现井喷式增长,大家会觉得大模型的春天到了。根据《北京市人工智能行业大模型创新应用白皮书(2023年)》显示,截至2023年10月,我国10亿参数规模以上的大模型厂商及高校院所共计254家。上百家大模型厂商也进一步催生出数十亿的市场价值。可以预计的是,大模型在今年也将持续火热下去。只是,在火热的背后,也要认清行业的变化。

而在讨论变化之前,要先理解大模型的“大”到底指的是什么?大模型扮演的角色是什么?吴太兵认为,大模型的“大”肯定是参数多、结构容量大,但这个“大”永远是一个相对概念,比如文字和视频不是一个量级,不同行业的文本训练也不是一个量级。

至于大模型所扮演的角色,也要先对AI的发展有一个相对一致的理解。在吴太兵的理念中,这一轮的AI技术热潮并不是偶然的,而是IT行业演进的必然。“IT行业从1993到现在经历了30年的时间,这30年时间可以分为三个阶段,每一个阶段都有自己的特点。”

第一个阶段,是Windows所代表的PC时代,是一种人机交互,人为去向机器输入信息。第二个阶段是互联网时代,人与人交换信息,主要的目的在于交换。第三阶段则是AI时代,在读懂人类的需求后,机器给人输出信息。

“AI的发展是一个顺其自然到来的过程,试想一下,OpenAI就像是苦读N年的莘莘学子,终于可以开始挣钱养家了,在前30年接收各式各样的信息后,开始有了独立的思维,形成了自己的一套系统化的框架。”

在外界还在观望这一轮AI热潮时,万兴科技选择第一时间投入进去。值得一提的是,在此之前,万兴科技也已在AI算法以及算力方面有所积累。从大模型出现,到融合大模型去推动业务的发展,吴太兵对1.0时代大模型所扮演的角色也有了更深入的理解。

“后来我慢慢理解了,大模型本质上相当于一个炼钢厂,通过高温萃取之后,得到一些精华的产物。它的价值在于把海量’原材料’炼出’原材料’,但是这些’原材料’本身是不能直接使用的。”

吴太兵对钛媒体App说道,从来没见过哪个炼钢厂扔一块铁进去以后,最后就出来一辆汽车了。1.0时代的大模型其实只解决了上游的原材料的问题,下游的组装是解决不了的。基于大模型,还要有更多的垂直应用。

“大模型在音视频垂直领域还存在很大的挑战。基于这样一个想法,我坚定地认为,大模型正在从图文1.0时代进入到以音视频多媒体为载体的2.0时代。”

根据思科公司此前发布的报告内容指出,未来82%的消费互联网流量是视频流量。如果从文本的角度来看,大模型的发展的确已经很成熟,但是从视频的角度来看是远远不够的。目前,全世界有3.05亿视频创作者,43亿视频覆盖群体,每天200亿次以上的视频播放量,视频需求非常大。“视频为王”时代的到来,也催生出对多媒体垂直大模型和应用的需求。

1

吴太兵进一步指出,“1.0时代,通用大模型占主流,好比‘科学家’,主要研究前沿高端,解决基础理论性问题。2.0时代,垂直大模型增长趋势明显,好比‘工匠’,可更快速、更灵活解决细分领域专业性问题,可从模型到应用场景对用户一条龙赋能。”

聚焦数字创意垂类创作场景,“天幕”大模型已在海外商用

相比较文本生成,视频生成大模型以及应用由于数据、算力等多方面原因,导致产品数量较少,以及效果并没有大家期待的那么完美。

吴太兵认为,音频大模型情感理解存在偏差,视频生成大模型生产内容长度、一致性待提升,难形成完整的工作流。OpenAI在发布大模型之时就提出了多模态,但在视频生成的满意度上较低。即便是Pika labs这种火热的产品,也存在明显的拖影、模糊等问题,质量非常不理想。

总的来看,视频生成目前存在三大挑战。第一是数据集欠缺,视频内容存储和标注成本高昂,视频相关的训练数据集目前仍较欠缺。第二是算力成本高昂,视频训练所需的算力远高于图片、文字等其它内容。第三则是生成效果不佳目前仍缺乏效果可用性较好的模型作为标杆。

“之所以行业投入那么多研发,在视频维度还存在着么多问题,背后核心的原因就在于视频生成十分复杂。”

钛媒体App了解到,视频由很多能力和元素构成,包括动画、字幕、音乐、特效、美化、贴纸、转场、画中画,还有顶层资源、颗粒等,很复杂。整个视频制作的链路、技术门槛非常高,平均制作一个视频需要1.6小时。在构思阶段,可能需要用GPT或者文心一言,做内容源需要本地拍摄,需要获得资源方便去做加工,需要第三方工具,进行效果生成,还要算力、做编解码,总之一切没那么简单。

在大模型2.0时代,做出符合市场的大模型产品,首先要搞清楚2.0时代的特点是什么。吴太兵总结了三点,第一是从多模态到多媒体,系统性解决不同模态融合的问题。在他看来,多模态还是一个通用大模型,通过一套东西把文本、视频、音频、图片全部打通,也许有可能,文本大模型从供给和使用角度体验已经很好了,但是音视频的体验还远远不够,市场需要多媒体大模型。

第二是从通用到垂直解决方案,一条龙从模型到应用场景。“通用的大模型只适合生产原材料,生产一张图片、一段音频,但还是需要“组装车间”把它最后变成一款产品,多媒体大模型上面有一系列原子能力,通过组装件最后变成最终的产品”,吴太兵表示,“指望向一个工厂扔进一些铁矿石,出来一辆汽车是不现实的。扔进去的铁出来的是钢材,扔进去的石油出来的是化工产品,但这些东西离你真正做成一辆汽车还有很远的距离,这中间的距离就是垂类大模型需要去做的,而不是通用性的化工厂、炼钢厂能去解决的问题。”

2

第三则是从全球到本土化,算力、数据、应用的本土化。过去,大家指望通过一个大模型去解决全世界的问题,但是现在来看,基本是不可能的。在应用的层面,需要算力的本土化布局,需要本土化的数据,才能研发出更本土化的应用。

“今天,我们要重视大模型本身的应用商业化,而且要高度重视中国的应用场景。结合我们所用的数据和应用产品,参与全球竞争的时候才更能找到自己的位置。”

依托于大模型2.0时代的三个特点,万兴科技推出了“天幕”音视频多媒体大模型,聚焦数字创意垂类创作场景,基于15亿用户行为及100亿本土化音视频数据,以音视频生成式AI技术为基础,支持全球不同语言,相关能力已在海外规模化商用。

吴太兵向我们透露,万兴“天幕”大模型将打造基于大模型架构的AIGC应用基础底座,自投入研发以来,组建了百人算法团队,团队硕士和博士的比例超过70%,“天幕”大模型算法也已正式通过《互联网信息服务深度合成管理规定》备案。

另外,算力作为大模型的根基,万兴“天幕”还在持续加码NPU+GPU强力算力底座,训练则是在国内算力和服务器基础上进行,已构建千卡集群、自研推理框架局,并拥有一站式数据生产管理平台,单日可完成百万级数据处理加工。

做AI时代的美的,不需要每一款产品都做到NO.1

站在新的发展阶段,万兴科技给自己的定义是一家以技术为基础的产品创新驱动公司,相比较技术公司,更加强调市场。“我们以产品创新为主,并不代表不关注技术,我们到长沙来也是为了吸引以及留下更多的技术人才,‘拿深圳工资,住长沙房子,干全球事业’,这是我们提出的口号”,吴太兵说道。

而面对当下市场出现的多元化竞争格局,如何在AI时代持续地淘金,成为摆在很多公司面前的问题。在吴太兵看来,让自己不掉队需要做到两条腿走路,一条腿是后端的技术赋能,比如大模型、算法、算力等,另一条腿则是对前台市场机遇的把控。

“除了原有的运营中心以外,我们还在大力招募本地化的产品和市场团队,希望能加速感知到市场的变化。而站在产品的角度,万兴的逻辑则是矩阵化产品思维,不需要每一款产品都做到第一,前三就可以,‘中产品’的战略也能让我们做到更大的规模。”

用传统的思维去看待大模型,而不是把其放在一个高大上的位置去仰望。很多人对大模型这件事非常地兴奋,特别想去搏一把,因为他们认为这可能是最接近成为比尔盖茨、乔布斯的机会。但是,在吴太兵的设想中,大模型的确很重要,也是需要抓住的机遇,但万兴想做的是AI时代的美的,通过矩阵化的产品创新,将自身以及市面上优秀的大模型的能力整合起来。

3

他表示,“我们有大平台,在正确的方向上,可以做N款优秀的产品,这样才能真的去拥抱这个新时代。”

在交流的最后,吴太兵还谈及了“中国的Adobe”这个称号,他认为这是市场贴的,但自己对于这种对标并没有太排斥。用他的话说,对标是为了减少品牌与市场的沟通障碍,可以让市场更快地知道万兴是在做什么。

不过,世界上没有两家完全一模一样的公司,万兴要走的路也和Adobe不一样,“我们更期望做的是未来的Adobe,一是有AI驱动力,二是立足中国市场。还是那句话,布局AIGC,我们是认真的,也希望更多的生态伙伴参与到多媒体大模型的建设,让整个行业更繁荣。”(本文首发钛媒体App,作者/杜志强,编辑/钟毅)

 

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App