钛媒体AGI沙龙第一期：“中国Sora”来袭，文生视频模型的未来究竟在哪里？-钛媒体官方网站

如今，在美国OpenAI快速发展的技术环境下，中国正加紧学习并不断创新，以实现Sora级视频模型的技术突破，从而更早推动AGI技术的到来。

（来源：AI生成的图片）

今年2月16日，美国OpenAI公司发布视频生成模型Sora，首次由 AI 生成了长达1分钟的多镜头长视频，输入寥寥数语便能生成效果炸裂视频，镜头感堪比电影，震惊全球。

随后，全球掀起了一场关于Sora的讨论风暴，犹如一年前的ChatGPT爆火，有大量 AI 公司以做“中国版 Sora”为目标。

4月27日举行的2024中关村论坛“未来人工智能先锋论坛”上，清华大学与生数科技联合推出中国首个长时长、高一致性、高动态性视频大模型Vidu，被称为“国内首个Sora级视频模型”，也是中国首个纯自研视频大模型。

Vidu利用Diffusion与Transformer融合架构U-ViT，支持生成长度16秒、分辨率1080P的视频，不仅能够模拟物理世界，还具备多镜头生成、时空一致性高等特点。清华大学教授、生数科技首席科学家朱军表示，Vidu之所以能够达到这样的效果，是因为其技术路线正好与Sora高度一致。

更早之前的2024商汤技术交流日上，商汤科技也公布三段完全由大模型生成的视频，并强调文生视频平台对于人物、动作和场景的可控性。这意味着，商汤科技在文生视频平台方面取得了重要技术突破。

如今，在美国OpenAI快速发展的技术环境下，中国正加紧学习并不断创新，以实现Sora级视频模型的技术突破，从而更早推动AGI技术的到来。

而就在4月10日，钛媒体AGI 举办了第一期闭门沙龙活动。通过线上会议方式，我们邀请了两位重磅嘉宾——生数科技产品负责人张旭东、商汤研究院研发总监卢乐炜，共同探讨AI视频生成模型背后的技术细节以及行业未来趋势。

张旭东表示，Sora比Pika、Runway更近一步，推动 AI 视频模型落地。同时，OpenAI不仅是视频模型，未来Sora可能还需要和GPT做一些融合。

“我对Sora的看法是，扩散模型（diffusion model）本质是做一个概率分布，随着模型规模越来越大，概率分布越逼近于真实，生成效果也就变得更加逼真。”张旭东表示，OpenAI确实走在一个宏大目标的道路上。

卢乐炜则坦言，Sora使得Scaling law（尺度定律）起到很大的作用，这能够推动整个产业往多模态大模型、文生视频模型方向发展，促进产业或将实现AGI。

展望未来，卢乐炜强调，现阶段离AGI还比较远，但随着模型容量增大，更好地吸收各个不同领域的数据，也许会有机会成为底层通用 AI 基础模型；同时，每个大的行业确实也有它产品逻辑和背景，因此市场依然需要大行业的定制模型，整个需求是长期存在的；另外，未来供电和能源问题获将成为国内发展大模型的另一重要力量。

以下是由钛媒体AGI 整理的本次沙龙部分对话内容：

钛媒体：Sora已经发布两个月了，那么从你们二位来看，Sora带来了哪些不一样的特点？它为什么能够理解世界在时间和空间上的连续性？

卢乐炜：从学术的角度来说，Sora利用了一个比较powerful的视频encoder去做一个时空的patchify的一个抽取。Sora有一个更强的时空建模，在整个stage中把实际收益大大往前挪。此外还有在另一块很大的收益上，Scaling law（尺度定律）确实起到很大的作用。如果国内的研究团队有这种充分的资源和基础设施去支持，肯定也可能更早去实现这个效果。当然OpenAI不愁资金，更方便把我们这个愿景给实现了。

张旭东：我对Sora的看法是这样的，扩散模型（diffusion model）本质是做一个概率分布，随着模型规模越来越大，概率分布越逼近于真实，生成效果也就变得更加逼真。

比如在图像生成任务中，在一开始模型规模还没有很大的时候，会容易出现人脸人手的崩坏、肢体位置不协调等问题。但随着模型变得越来越大，图像的语义理解、美观性、可控性方面的水平就能得到提升。视频任务的Sora 本质也是这个原因，基于diffusion transformer融合架构，不断提升模型容量，生成效果就可以得到优化。

OpenAI不仅是在视频，在其他领域还有一些没披露的远大目标。那种目标是我们一听就觉得是非常难实现的。可能现在我们看到的是Sora，但再过一年又会是另外的东西，OpenAI 确实走在一个宏大目标的道路上。

钛媒体：相比Runway、PIKA，或者是Stable Diffusion（SD 3.0）等来说，Sora的核心优势有哪些？你们二位能否简单说说这种视频模型，和多模态模型的区别？

张旭东：我认为Sora还不能称之为一个特别完善的多模态。

真正的多模态应该是什么样的，同样以图文场景举例，很多真实需求其实是“图文-图文”的交互，比如跟设计师沟通设计需求，就是一个典型的“图文-图文”的交互，指着一张图说要怎么怎么改，这里局部做些编辑，或者改下风格，输入既有图片，又有文字指令，设计反馈回来也是图和文，都是图文交错的形式。

那让AI来做的话，理想状态是，输入图片加一些限制的指令条件，模型在理解的基础上直接生成出来。但现实却是做编辑是一套算法，做风格生成又是另外一套算法，比如使用GPT-4 Turbo。有点像是“一个聋子搭着一个哑巴”，两个人一起协同去干活。本质上这个模型还不能真正的理解多模态的输入，然后再转化成一个多模态的输出。

视频任务是一样的，甚至会更复杂一点。但我认为Sora比Pika、Runway更近一步，Runway、Pika只是单纯的跨模态，Sora 在架构上做了更多的设计，用transformer替代了U-Net，将 Transformer 和扩散模型进行了融合。我认为Sora的架构是有潜力去支撑起图文视频或者更多模态的输出。但就Sora 的形态来说，离多模态还是有挺大距离的，我觉得到目前为止还没有一个真正意义上的多模态模型出现。

钛媒体：Sora现在还没有开放，背后原因是什么？

张旭东：Sora还是一个比较单独的架构，目前这个架构还是有很多任务是实现不了的，只能去做视觉内容相关的一些东西，还是在有限的任务内，可能未来Sora还需要和GPT做一些融合才行。

卢乐炜：我觉得Sora在那个moment推出可能也是一种偶然。像GPT-4已经发布那么久了，然后再看手里的东西，Sora正好是一个蛮不错的有爆点的东西，所以OpenAI先推出来。他们自己也声称这也不算是产品发布，只是一个技术Preview。

再聊回刚刚说的多模态大模型，这本身不是一个新词，这个词到现在概念都换过好几次内容。你说Sora是多模态大模型也ok。那一般来说多模态大模型更多的像是GPT-4v，偏向于图文理解，但多模态最终的核心就是做多模态互信息的理解，无论是基于图文对、视频文本对、基于理解这个路线做互信息，还是说基于视频流，它可能是弱文本重视频的客户信息，无论是基于对什么是一个更高效的方式，这两个事情是殊途同归的。它本身不是互斥而是一体的。

我判断多模态大模型、文生视频模型本身就是一体的，而且我觉得Gemini 大概率也是走这个路线。现在它的衔接可能是偏文本，那后面可能是特征维度的衔接。因为本质多模态大模型现在encoder输入，然后再引入一个多模态核心Core。现在Core都升级到图文交错了，它已经是视频、音频、图文包括各种模态的交错，形成那个很强的Core，因为怎么高效地形成互信息的Core才是最重要的，那可能在接它的下游，所谓decoder，之后核心要做的就是核心互信息的Core特征。但是它是不是真的能学得到这个互信息，它可能有，但是不一定有那么强，所以最终有可能是encoder输入，然后各种模态也能decoder输出，任何一个路径它都能走。

钛媒体：近期业内有很多非Transformers的架构出现，比如谷歌、斯坦福的团队都发布了Transformer架构模型，为什么大家又开始追非Transformer？这是否意味着Transformer开始被抛弃了？

卢乐炜：我觉得首先追求Transformer Attention的线性化在没有现在AGI大模型的年代就有了，线性Attention复杂度的这个追求某种程度上还是在Transformer的基础上修改的。比如Yi Tay，他在Google期间做了一个很实际的工作就是线性化Transformer。那这算不算非Transformer架构？如果算那非Transformer架构以前就多的去了，因为这里核心的关注点其实就是他Attention随着Context变长的计算复杂度增长，那现在当然有像Mamba很火，包括把RNN 的经验带回来的像RWKV，这些我们内部实际的推导过根本的一些公式表达，其实它是能一个统一的表达去表示的，所以我们也在内部研发具有创新性的机制。

还有一个最大的痛点就是，如果我们未来面向多模态，毫无疑问是要面临视频的处理。这一点其实Gemini 1.5 Pro已经展示出来了，你的上下文支持需求会变得极端的长。假如你把所有的帧抽帧处理，那两个小时的电影，甚至多部电影十个小时的视频内容给到模型，那上下文需要多长，目前100万tokens的上下文够吗？200万够吗？目前百万级上下文通过工程来做能支持得很好，但万一接下来的话多模态需要的上下文长度就是1000万1亿甚至更大了？那不可能再继续依赖工程优化来覆盖产生的这么大的cost，所以注意力机制线性化也成为现在大家很迫切需要的必然，也所谓的现在大家说不能用Transformer架构，其实我个人是不大喜欢强调说这就是非Transformer架构，因为它本身就是对他做注意力机制做改造。

过去曾经很多同僚对他魔改过100遍了，当然现在的改进会更彻底一些比如RNN能不能拿回来，包括加Batch支持的各方面的改进，包括RWKV第五版，第六版往这个方向思路改进，当然现在还有一个大模型研发上路径依赖的问题，如何利用这些新型结构真正的训练出一个典型体量的大小大模型，确实需要很多的资源去验证和调优。

张旭东：从长期来看，架构肯定还是有许多需要去改进的点。但从比较近期或者做产业这个角度上来讲，我自己感觉这块工作很像实验科学。你加一些什么东西，它得到什么样的结果，设计什么样的训练策略，它能有什么结果。每次需要做很多实验，才能得出一些有效结论。

所以不管是从经验还是熟悉程度出发，团队其实很难去贸然地尝试一个全新的架构，我觉得产业内还是会投入更多精力在主流架构上面去做工作。

钛媒体：此前，机器学习采用的贝叶斯、无监督算法，无限逼近right值的形态是 AI 发展的必经之路。但ChatGPT、Sora一出来，AI技术格局发生了巨大变化，为什么会出现这种现象？接下来，模型层面是否还会有新的架构进行替代？

张旭东：我自己感觉变化还是非常大的。最早我也做过一些像广告投放的工作，它用简单的逻辑回归模型达到的效果也不错，包括在金融领域也有很多应用。但它本身模型架构特别简单，你很难给它喂上比较多的数据。

而OpenAI想做所谓的AGI，让其拥有类似人类的智慧，那怎么实现？他们当时提出，知识来源于数据的压缩。也就意味着，如果能够把全世界的知识压缩到一起，那就能够拥有足够多的智慧，然后就能把AGI做出来。从这个思路出发，首先就要求这个模型的架构要能够去吃足够多的数据，在大规模的数据上要能够训练得起来，Transformer 架构就非常适合。

当然过程中他们也尝试过像LSTM 架构，但训练效果不太理想。后来Transformer 出来了，他们很快切换到Transformer 上面去。从OpenAI发布的一系列技术论文来看，很早之前他们就通过GPT2验证了Scaling law，只是当时大家都没有意识到这个的重要性。直到GPT3参数量提升到1750亿，Scaling law的作用更明显的体现出来，这时候Scaling law的价值才真正的大范围的被认识到，所以我觉得核心还是需要一个架构去压缩更多的数据，然后剩下的比如做很多的卡的并行，做大规模的训练，其实都是为了Scaling law服务的。

卢乐炜：因为Scaling law是在当时GPT-3.5的推出，在大家口中变得特别火热，但我个人想说，其实Scaling law从来不是一个新的东西。深度学习发展的本质其实就是Scaling law起作用。甚至20年前到现在，Scaling law一直都在起作用，使得后面有深度学习的发展，包括现在AGI的发展，因为现在确实我们有了更好更多的计算资源了。过去最知名的神经网络突破就是Lecun年轻的时候用一个CPU对吧，386去训练一个CNN出来，也是首次Mnist 上取得突破性的成绩。那为何不是基于决策树或者贝叶斯的各种东西。其实在以前包括周老师也做过堆栈化的树网络模型，也都尝试过深度学习化的改造，那为啥不行？就是Scaling law的本质是如何能更快的吃数据，见过更多的数据，更快的训练，计算Gradient去快速下降，确实基于神经元是最最精简的形式，特别能迅速优化训练迭代，所以我们的框架设计其实都在不断的做减法。

为什么我们之前还会讨论大模型设计究竟应该是encoder加decoder还是decode only还是prefix那时候提出了一大堆方法，那为啥最终是decode only，因为这么做结合Scaling law确实太高效了。无论从数据的准备还是整个架构的高效训练，都非常好，能很高效地见更多的数据。包括最早的GPT，它基于的结构，为何会选一个相对更胖，层数更少的结构？Scaling law确实就是OpenAI笃定的信仰。

我们回顾过去，统计学习就是希望统计更多的数据，得出更客观的规律或在高维的数据里面找到一个更精准的决策边界。甚至我见过全世界所有数据，判别出一个特别准的边界，那可能就是一个完美的模型，有个任何一个地方都不会有偏的一个边界。

另外OpenAI决定做视频肯定不是因为要做Sora才开始搞这些东西，他这么强大的工程团队是一个非常强的支撑。其实我们还有一个观察就是，关于很多新的、随着这波浪潮起来的很多老师的初创公司，他们以前是做搜索起家的，也很快把这个语言大模型研发出来，并且整体的质量也是很不错。侧面验证了前期数据工程的积累，因为过去做搜索很明显也是跟数据打交道，然后做ranking各种东西，包括filter，对各种管线的需求都特别丰富。那OpenAI为啥在一个moment爆发，我个人觉得和微软有关。

微软的必应团队，cosmos那些集群建设特别完善，你想要什么数据，他很快就能用几十万计的计算节点、CPU节点立刻发力，想要的各种filter 的条件都写出来，数据支撑还是很强大的。

很多科研的资深老师也很了解，在高校包括李飞飞最近也经常呼吁要建一个国家级的超算集群给到高校去用，因为计算资源就是一道门槛，是起到很大的帮助作用的。

钛媒体：商汤是怎么做多模态大模型的感知能力以及视频模型，过去一年日日新有哪些变化？

卢乐炜：我是做视觉起家，大概2019年加入商汤，当时在做的一个事情就是视觉的大模型，我们一直到现在也在做，我们近期发布的InternVL也是现在业内性能最强的视觉基座大模型。关于纯语言模型，大家路线就比较清晰明确，那到多模态时代就需要在之前视觉等各个模态方面经验都有很好的积累，可能才能发挥这样的一个威力。

我们大概在2023年初开始做切入多模态大模型，到那年年中就有一个比较强版本，也给到我们很多B端客户做了产品支撑。我们一些很知名的客户给了反馈，就包括最近发布了车的客户，在他的评测里面展现了非常不错的性能。我们做的就是一个通用大模型，它能赋能各种比如像小爱同学这类智能助理。

可能我们没有太多宣传，其实我们有一些也是比较引用量比较高的一些文章。在文生视频领域我们也是有一个比较强的学术积累，甚至在更早时间点已经开始堆一个比较强的规模。但没有投入特别多的力量去做宣传。

在文生视频领域我们也有一个比较强的学术积累，甚至在更早时间点已经开始堆一个比较强的规模。

钛媒体：场景化模型的客户需求在哪里？为什么大家老讲“场景”问题？

张旭东：生数团队主要提供图像生成、3D模型生成、视频生成能力，主要面向创意内容生产场景。比如在设计领域，帮助创作者在初期生成大量的草图、概念图，更好的理解创作需求并寻找创作灵感，同时提高创作效率。包括游戏领域涉及大量的3D素材，传统流程需要手动建模，时间成本投入巨大，通过我们的图生3D的能力，自动生成游戏道具、玩家形象等各类3D模型，提升游戏开发效率。

但目前影响实际使用的关键还在于模型能力。如果模型能力没有那么强，很多需求其实解决不了，这种时候，要么是在限定条件下，让模型去完成一部分任务，或者是后期加入人工来完成，在过程中不断去优化。好的是，大家都很关注，都会想着怎么先把大模型用起来，不会被时代抛下去，这种意识能很好的推动技术向前一步。

卢乐炜：在很多大家意想不到的领域，像钢铁行业、煤矿行业，包括一些龙头企业，我们都在推动多模态落地的。他们有很多过去传统的需要一些更精细定义，比如最简单的生产安全，那你只能定义清楚各种模型去做，并且总是发现有遗漏的，毕竟之前依赖于人去提前去想。

我们人为何要继续学习，就是我们人真的要想明白，学习其实不是我们的强项，人可能总是有遗漏的，所以我们需要设计一套更文明的方法，让它自己去自主学习，这就是一个很好的场景和契机。包括像电力系统做巡检，很多电网系统就在深山里头，不可能派专家过去，危险性很高，那可能需要无人机巡检，那我们为电网企业定制的大模型就能完成检修和电网调度的任务，能发挥很大的作用

钛媒体：最近端侧模型比较火，AI PC、AI Phone概念也都被持续关注，无论是商汤还是生数也有布局相关的业务和技术，我想知道，二位怎么看端侧多模态模型的发展？

张旭东：端侧的场景是很必需的。比如在手机相册里输入文字搜图，或者快速抠图等等，都是非常实用的场景。目前我们也跟一些手机厂商有相关合作，主要聚焦在人像场景。PC端也是一样的，之前我们通过快捷键来一步步操作电脑，未来通过文字指令就能直接实现。我们现在与 AMD中国达成战略合作，探索多模态大模型应用在端侧的创新场景。

我个人感觉目前这个阶段还是很难去把一个特别大的模型通用的东西搬到手机上，做的特别好，因为时间很短，大家去年才开始做大模型。但这个行业热度很高，业内都希望尽快去落地。所以，可行的还是先以一些小的点或者场景切入，先把体验优化好。

现在大家对数据的理解更深了，可以挑更好的数据。有些时候单纯的数据量多不一定是个好事，优质数据更重要，再加上芯片也会迭代，我认为（AI PC）再过两年就会让大家觉得非常有用了。

卢乐炜：AI Phone是一个大的趋势，因为过去千亿、万亿参数模型，可预见的未来还是会跟随GPT持续扩大。但是今年，从国内来说，无论是学术上还是产业上一个大趋势，端侧模型能够基于Scaling Law（尺度定律）能力做出小模型，整个技术性能也比过去强很多。

当然，你指望一个2B模型现阶段能有多强 API 能力，也不现实，或者这种可能性需要我们不断探索，包括数据工程、算法积累等再做端侧小模型。因此，端侧模型确实能力比过去要大的多，在很小的模型参数重做出10倍大模型的同等体验，整个还是蛮有意思的。

回到 AI Phone上来说，终端厂商对于大模型回归“普罗大众”有很好的愿景，尤其通过 AI 技术把手机附加值增加更多。比如，小爱一天能几千万次调用，而千亿模型成本很贵，我们要精打细算，因此通过AI Phone，让更多人体会到这个大模型的落地成果，而且支撑智能手机持续增长。

未来，如果80%的模型都能在端侧上去完成，20%在云端，而且存在一个相当可观的速度，那么未来端侧模型肯定有发展的前景。而从我们团队来说，我们也在跟客户磨合做 AI Phone 的演进，未来会有一些创新性场景，但很多东西确实需要时间去磨合端侧模型链条。

钛媒体：未来，AGI最终到底是通用模型，还是定制模型？

张旭东：首先，它（这一轮生成式AI）绝对跟之前有很大的不同。过去做一些智慧城市治理，关注800个治理问题，就找800个人采集800组数据，然后去训很多个小模型，最终项目交付会很“痛苦”，甲方也很痛苦。但今天不一样了，如果我们想用GPT来做图像识别，能够得到很精确的定义，且比较通用化。整体来说，它的通用性比之前好很多，然后现在我们也可以看到一些新的框架，它能够做的更加通用。我觉得未来还是比较光明的。

卢乐炜：现阶段，大家应该都能很明确，离AGI还比较远。随着模型容量增大，更好的吸收各个不同领域的数据，也许会有机会成为通用模型，因为有些大的行业还是长期需要底层通用基础模型的，但每个大的行业确实也有它产品逻辑和背景，这个我们不能忽略。未来，我觉得所谓通用性 AI，我们需要有一些信念，但回到行业定制，我们客户还是希望能有厂商紧密响应需求，本质理念都还在，所以，我觉得一定程度上，市场依然需要大行业的定制模型，整个需求是长期存在的。

钛媒体：Sora、ChatGPT如此火爆，国内如何学习和创新追赶整个 AI 浪潮脚步？

张旭东：我觉得这个问题比较实际。首先，现在确实国内很多团队都在投入做生成式 AI 和大模型，但我觉得，最终肯定是只有几家能做出来。追赶Sora肯定是没问题的，国内确实需要这样的模型，毕竟Sora不是中国本土的，我们需要自己有这样的东西。

其次，中国大模型能否赶超，肯定还是很难的，因为它是一个长期的过程，不是说我今天赶上了、这个月赶上了，就代表我永远赶上了，竞争对手也在进化。OpenAI还在做更多的东西，包括“星际之门”这种花费1,000亿美金的计算基础设施，对国内是很大的挑战，所以，我觉得差距肯定是会有，而且有可能会长期存在。

但是大模型能不能做成也不完全就是“钞能力”来决定的，比如，Meta就有很多钱和几十万显卡，然后Google也有很多钱，但他们也没做出Sora。所以我觉得，中国大模型可能和最好的效果会有距离，但结合中国的场景依然能作出有价值的东西，用户永远是看性价比的，而不是谁的模型最 SOTA。

卢乐炜：我觉得最近也比较有趣，就比如刚提到像“星际之门”，包括黄仁勋也说，未来制约人工智能发展是电力。我们当时还比较有趣的说，那是不是意味着我们有机会“弯道超车”。

随着时间发展，我们的大装置需要更多的能源，这部分其实是和国外同行同步的，接下来我们可能要从液冷，转向“水冷”，整个机房整个机子的设计完全不一样了。这些都是对就行业的共识，供电直接就多一个0了。未来，我觉得大模型发展就还很有趣，供电问题会成为国内发展大模型的另一重要力量。

（本文首发钛媒体App，作者｜任颖文、林志佳、AI科技组，编辑｜林志佳）

钛媒体AGI沙龙第一期：“中国Sora”来袭，文生视频模型的未来究竟在哪里？

以下是由钛媒体AGI 整理的本次沙龙部分对话内容：

最近资讯

最近资讯

敬原创，有钛度，得赞赏

关注喜欢的作者

参与互动讨论

作品投稿