文|智能Pro
科技圈当下最火话题,非Sora莫属。Sora的影响力也早已冲出硅谷、辐射全球,在大洋彼岸的中国掀起滔天巨浪。
在二级市场,Sora概念股连日走高,势头比起当初的ChatGPT概念股有过之而无不及,比如2月20日,A股、港股Sora概念股板块就有超过60只个股飘红,其中5家企业股价暴涨40%以上。
在科技互联网圈,争夺中文版Sora首发权,成为巨头的新目标。不过和当初的中文版ChatGPT首发争夺战相比,中文版Sora的研发难度也更大,大厂们大多面露难色。此前被盛传将推出首个中文版Sora的字节跳动,就在20日辟谣,称相关产品的效果距离Sora还有很大差距。
在Sora横空出世前,国内“千模大战”早已陷入胶着状态,未曾想,风口突变,从图文生成转向视频生成,“千模大战”也将进入全新阶段。
在上一阶段稍稍落后的字节跳动在视频业务上有先天优势,自然不会错过这个弯道超车的机会,这不仅事关大厂的面子,更是为了捍卫其核心业务——抖音CEO张楠突然辞职专攻剪映,也被视作是字节重视AIGC的动作。
虽然没有中文版Sora,但字节一直在死磕AI
在文本生成式大模型领域,字节的起步时间无疑是比百度、阿里巴巴等大厂要晚,这也让字节的高层十分懊恼。CEO梁汝波就在内部讲话中直言,很难相信技术团队直到2023年才讨论GPT,要知道业内做得比较好的大模型企业都是在2018-2021年起步的。
好在,知耻而后勇,还有亡羊补牢的机会。
一开始,字节希望以量取胜,在去年下半年扎堆上线了十多款AI产品。
这当中,既有大厂标配的基础大模型“云雀”,也有在C端最流行的AI对话类应用,如“豆包”、“话炉”和“抖音小晴”,还有辅助创作的AI工具,如剧情创作平台“BagelBell”、电商内容创作应用“即创”等。由字节技术副总裁洪定坤率领的新部门Flow,则在背后为这一系列AI产品保驾护航。
据悉,字节还在内部开放了大量活水岗位,希望调集全公司最优秀的技术、产品人才集中精力搞AI。除了前面提到的洪定坤外,原飞书产品副总裁齐俊元、抖音社交负责人陆游、字节跳动产品与战略副总裁朱骏等高管也先后驰援。甚至在国外,字节跳动也组织了50多人的研发团队,负责推进“Cici”项目。
然而,字节在文本生成大模型这条赛道确实是落后了,即便后期不断加大投入,恐怕也很难抹平差距。明白这个道理后,再结合自身的业务状况,字节开始发力图像、视频生成领域,试图确立差异化优势。而在春节前后,内部的一系列人事变动、团队重组,则是其为视频生成大模型奋力一搏的最佳证明。
2月9日,张楠宣布辞去抖音集团CEO一职,原因是要把精力集中到剪映的发展上。众所周知,张楠是字节内部最有权势的高管之一,很多人将其视为仅次于集团CEO梁汝波的二把手。其掌管的抖音集团,则是字节最重要的业务,此次自降身份掌管剪映,在内部、外界都引发了不少争议。
如今再看,作为一款视频剪辑及辅助创作工具,剪映是字节业务版图里和视频生成大模型契合度最高的一环,是承载AI视频创作业务的最佳抓手。像张楠这种级别的核心高管主动接管剪映,恰好说明字节对该项目的重视。
有消息指出,张楠去年已经把大部分精力花在剪映身上,抖音的各项业务分别交给韩尚佑(抖音集团新任CEO)、魏雯雯(抖音电商总裁)、蒲燕子(抖音本地生活负责人)等高管接手。
去年11月,剪映就悄悄内测了一项名为“Dreamina”的AI辅助工具,用户只需要输入文字,即可生成创意图像。算上研发周期,该项目的立项至少在去年二季度前。如果上述消息属实,张楠带领的团队应该在更早的时候就接手了字节的AI产品研发工作。
张楠正式官宣辞任集团CEO之后,也有消息称其带领的团队将推出一个全新的AI视频生成软件。如今,这款备受期待的产品——“Boximator”,终于浮出水面,这也是字节冲击中文版Sora的王牌。
Sora搅动一池春水,大模型改造短视频行业
据悉,字节内部对“Boximator”的定位为创新性视频生成大模型,将通过控制对象运动的方式,精确控制视频人物、物体的运动。该模型采集的训练数据来自webVid-10M数据集,并在PixelDance和ModelScope两个视频生成模型中进行训练。
然而,正如字节日前的回应那般,视频生成大模型的研发难度比想象中更大。根据字节方面的说法,“Boximator” 保真率、画面质量、视频时长等方面距离Sora还有很大差距,暂时不具备落地的条件,预计还要2-3个月才能开放测试。
但2-3个月,可以发生很多事情——Sora可能已经迭代到更先进的版本,和尚未落地的竞品拉开更大差距;其他竞争对手也可能迎头赶上,抢在字节之前推出同类产品。
对于这些可能性,字节跳动心里肯定有数,而且比谁都着急。原因很简单:比起文本生成大模型,视频生成大模型和字节跳动的短视频、直播等核心业务关联更紧密,影响也更大。
如果说搜索是第一个被ChatGPT颠覆的行业,那么长/短视频肯定是最有可能被Sora颠覆的行业。正如当初谷歌、百度、360等巨头倾力投入文本生成大模型研发那样,字节在视频生成大模型这一战中也不容有失。因为随着视频生成大模型在日后逐渐普及,短视频内容生产、营销、变现等一系列逻辑都可能发生变化。
以内容生产为例,制作方对真人演员、编剧、剪辑人员的需求很有可能会减少,传统的制作流程也会被大幅简化、制作时长将被压缩。这带来的直接后果,不止是生产内容数量呈几何级增长、成本明显减少,也必将导致更残酷的竞争,加速优胜劣汰。
在Sora走红之后,有关剪映会不会被取代的问题已经迅速成为焦点话题。留给剪映的路只要一条,那就是主动拥抱AI,向Sora看齐。要是能成功抱上AI这条大腿,剪映的用户体量可以再上一个台阶,商业化潜力也将大大提升。
举个最简单的例子,现在的剪映只提供基础服务,收费模式很难推广。但如果能像Sora那样,提高内容创作者的效率、降低成本,收费也就更有底气。Stability AI、Runway等独角兽的估值大幅飙升,就证明了这条路线的可行性。
当然,因Sora而焦虑的大厂绝不止字节跳动一家。短视频行业的另一个巨头快手,还有爱奇艺、腾讯视频、优酷、哔哩哔哩为首的流媒体平台,也必须啃下视频生成大模型这块硬骨头。
可能是Sora的冲击太大,还需要时间消化,也可能是吸取之前的教训,先埋头干实事不着急到台前造势,上述大厂大多尚未表态是否及何时推出类Sora应用。截止发稿时,只有芒果超媒表态将探索文生视频等AI技术在传媒领域的落地。但明眼人都看得出,这些大厂没有一个会缺席这场全新的“千模大战”。
有危机感,就会有动力。大厂们集体冲刺,到底谁能率先撞线?
冲刺中文版Sora,哪家中国大厂先撞线?
要猜测谁能率先研发出中文版Sora,或者说类Sora视频生成大模型,得先看一下这类产品的研发难点。
从openAI公布的报告来看,Sora并没有应用什么全新研发成果,核心技术都是早已公开的。这当中,视频压缩网络、扩散模型、视觉补丁(类似于本文生成大模型的文本标记)、图像及视频编辑是最关键的几个环节。本质上讲,Sora仍是一个基于Transformer架构的扩散模型,和ChatGPT有很多相似之处。
当中的技术原理和繁琐的训练流程,这里不再一一展开。可以确定的是,大厂们都具备开发中文版Sora的基础,起跑线不会有太大差距。除了考验财力之外,和之前的中文版ChatGPT之争一样,数据样本、算力、测试条件,将很大程度上左右最终赛果。
这当中,数据样本关系着大模型的效果,训练数据越丰富、越完整,视频大模型就能越接近物理世界的真实情况。算力则是训练效率的决定性因素,是跑赢竞争对手的关键。测试环节更多是决定了产品落地效果,以及稳定性。
硅谷巨头的选择出奇一致,都在拼算力。openAI CEO阿尔特曼表示,计划筹集8万亿美元投资AI芯片,彻底解决AI大模型训练的算力问题。微软、Meta、谷歌等大厂在疯狂囤积英伟达H100的同时,还在抓紧时间自研芯片。这些原本为文本生成大模型准备的杀招,现在能完美应用到视频大模型身上。
国信证券在最新一份研报中指出,相较于ChatGPT等文本生成类大模型,Sora训练数据量明显高出一个级别,对算力的要求自然也更苛刻了。根据该研报援引的数据,以全球最大视频分享网站YouTube为数据源,一年的增量视频大约为157.68亿秒,即便是采用英伟达最先进的H100,单次训练也需要一个月,GPU消耗量为156.98万张。
众所周知,H100长期处于供不应求状态。加上不可抗力影响,国内的大厂们在算力这一块大概率会落后于硅谷巨头,唯有在其他环节努力缩短差距。相较之下,字节在训练数据源这一块就比其他大厂更有优势。
要知道,Sora对比其早前的PixelDance、Stable Video Diffusion等未成形视频大模型有显著提升,数据量是很关键的一点。抖音和TikTok是国内和海外市场用户、创作者规模最大的短视频应用,拥有最多的短视频内容,可用于训练大模型。更不用说,字节旗下还有今日头条、西瓜视频等内容库,完全不愁数据源。不过其他大厂也不会落后太多,而且肯定会想方设法抹平差距。
这几天的观察下来,和当初同样出道即红遍全球的ChatGPT不同,业界人士对Sora的态度除了赞叹、敬佩,还带着更深的恐惧。这不仅是因为Sora的视觉冲击力比ChatGPT更强,还因为前者对相应产业的改变路径是相当清晰的——这也决定了大厂会倾注更多的资源,务求尽快打赢这场硬仗。
总而言之,“千模大战”已经进入新的阶段。假以时日,我们肯定能看到很多中文版Sora。只不过对大厂来说,既然不可能成为“唯一”,就只有争下“第一”才有意义。
根据《网络安全法》实名制要求,请绑定手机号后发表评论
从产品体验来讲,看好字节跳动
紧跟美国的步伐,别掉队太多就行
这种态度就对了,实事求是,不自我吹嘘,好好打磨产品,后面才能发展起来
中国在文生视频上的差距,远大于大语言模型
自己放出的消息,然后自己再辟谣?