英伟达+OpenAI：“Wintel效应”显现，当心掉入后发劣势陷阱-钛媒体官方网站

文 | 孙永杰

近日，英伟达在2024 GTC大会上发布了多款芯片、软件产品，引得国内媒体一通儿追捧，什么“核弹”、“炸裂”，总之一个比一个惊悚。同样的追捧也出现在了对于OpenAI的身上，尤其是其Sora问世之时更是如此。孰不知，在我们追赶的过程中，极有可能陷入后发劣势的陷阱。

AI的“Wintel效应”显现：英伟达给的，OpenAI们就会拿走

“安迪给的，比尔就会拿走（What Andy giveth, Bill taketh away）”。这句源于1990年代在计算机会议上的一句小笑话形象地诠释了“Wintel效应”，即指新软件总将耗尽新硬件所提高的任何计算能力。正是借此，直到今天，Wintel不仅依然牢牢控制着PC产业，且双方依然是全球科技产业中不可或缺的角色。

那么进入现在的AI，尤其是炙手可热的生成式AI时代，又当如何呢？

众所周知，生成式AI模型的训练是一个计算极为密集的过程。这些模型包含数百万乃至数十亿个参数，需要在庞大的数据集上进行多轮迭代训练。在训练过程中，涉及大量矩阵运算和梯度计算等计算密集型操作。因此，为确保训练过程的顺利进行，必须依赖强大的计算资源来加速。

不同模型训练一轮所需算力资料来源：《language Models are Few-Shot Learners》，中国银河证券研究院

以最近大火的Sora为例，据银河证券研究院基于大语言模型推导算力需求方法，对Sora单次训练算力需求进行推演后推测，Sora参数规模估算在30B（待确认），如果按此参数测算，推演出Sora训练单次算力需求或可达到8.4×10^23Flops，相当于GPT-3 175B的2.7倍。而且该研究院认为，目前Sora还在初级阶段，仍然存在如能以准确模拟物理运动规律及场景、混淆左右方向、混淆空间细节等，而伴随Sora不断迭代调优，训练数据集规模增大，未来算力需求将呈现指数级爆发式增长。

国泰君安则认为，Sora大模型延续了此前GPT模型“源数据-Transformer-Diffusion-涌现”的技术路径，这意味着其发展成熟同样需要“海量数据+大规模参数+大算力”作为基座，且由于视频训练所需数据量远大于文本训练的数据量，预计Sora大模型将进一步拉大算力缺口。

问题来了，如此大的算力需求或者说缺口，谁来补？无疑业内首先想到的就是英伟达。

说到英伟达，就不得不提及刚刚结束的，备受业内关注的英伟达2024 GTC大会。虽然相关的报道很多，但我们还是要借此看下英伟达在满足AI算力需求的技术和商业逻辑是什么。

作为GTC大会的核心，英伟达发布了新一代计算架构Blackwell，以及采用Blackwell架构的GPUB200及GB200，在FP4精度下，Blackwell 架构的AI计算性能达到前代Hopper 架构的5倍。Blackwell系列GPU采用台积电4NP工艺，集成了2080亿颗晶体管，且升级了 Transformer引擎、NVLink等以提升算力。相对上一代Hopper架构，Blackwell架构的集群化计算降低了能源消耗及所需的GPU数量，有望降低计算成本。

例如在标准的1750亿参数GPT-3基准测试中，GB200的性能是H100的7倍，提供的训练算力是H100的4倍。过去，在90天内训练一个1.8万亿参数的MoE架构GPT模型，需要8000个Hopper架构GPU，15兆瓦功率；如今，在Blackwell架构下进行训练，同样90天时间的情况下只需要2000个GPU，以及1/4的能源消耗，是不是很摩尔定律。

这里请注意，英伟达算力创新和发展的逻辑是降本增效，而这个并非是指芯片成本本身，而是AI训练和推理的整体TCO（其实英伟达CEO黄仁勋在接受媒体采访时提到了），而给外界的感觉越来越贵，是因为被Open AI不断更迭的大模型们“吃掉”了。

需要说明的是，在演讲中，老黄还特别提到2016年赠送OpenAI的DGX-1，那也是史上第一次8块GPU连在一起组成一个超级计算机，当时只有0.17PFlops。从此之后便开启了训练最大模型所需算力每6个月翻一倍的增长之路，并一直延续到今天，甚至有过之而无不及。

到这里，看出点儿门道没？至少在我们看来，也许早在8年前，不管是有意还是无意，英伟达和OpenAI就已达成了类似“Wintel效应”式的默契。而我们到今天才看到这种效应浮出水面（因为英伟达和OpenAI彼此间的技术更迭速度太快、步子太大），由此看来，以后“吃掉”芯片算力的就是大模型了，而根据MIT的相关研究，大模型以后根本“吃不饱”，这意味着算力还需增加，而英伟达与OpenAI的“Wintel效应”将继续正循环下去。

追赶GPT国内掀百模大战，知其然不知所以然

也许正是由于英伟达和OpenAI跑得太快，中国的AI，尤其是生成式AI掀起了“比学赶帮超”的热潮，这点在大模型方面体现得尤为充分。

自OpenAI的GPT问世，全球没有哪一个国家像我们，在极短的时间内出现了各行各业都推自己类GPT大模型、中模型、小模型以及各种所谓的行业模型，甚至有媒体用“百模大战”形容当下国内大模型数量之多，竞争之惨烈。

实际的情况是，人工智能大模型研发的关键因素之一是算法，而算法的进步又依赖于持之以恒的前沿研究投入。在当下国内企业快节奏的竞争和盈利压力下，企业难以做到不计短期回报的投入。因而，在这些高风险的创新技术领域，国内企业更倾向于采取复制和追随策略，国内大模型大多基于国外公开论文和开源模型的基础上进行模仿和复制，结果总是“慢人一步”，最典型的表现就是Sora的出现，让我们又是一惊。

除了“慢人一步”，我们认为最为致命的是，上述基于国外公开论文和开源模型的基础上进行模仿和复制造成的后果是我们国内企业对于大模型会陷入知其然不知所以然的尴尬。

例如近日，南加州大学的研究团队通过一种攻击方法，成功破解了OpenAI最新版 ChatGPT模型（gpt-3.5-turbo）的参数规模，结果发现其参数规模可能只有70亿，而非此前外界猜测和传闻的数百亿甚至上千亿。

那么随之而来的是，最初的200亿参数数据是否来自误传？还是OpenAI之后又对模型进行了压缩？亦或是OpenAI一直在刻意隐藏ChatGPT的真实参数规模？无论真相如何，都表明OpenAI在模型优化或者算法方面拥有着强大的技术实力，它才是GPT的核心。

反观国内的大模型，以现在排名靠前，用户最大的百度前文心一言为例，据新浪科技的报道，近日，多位文心一言4.0付费用户表示，“买了文心一言4.0会员，问了几组问题后发现质量不达预期，跟免费的版本没有太多区别，想要退费又联系不上客服，觉得有点亏。”在黑猫投诉“投诉入口”平台上，目前文心一言也是国内唯一一款收到多位用户投诉的对话式AI产品。而新浪科技实测发现，目前这些版本功能相对单一，除了满足基本的尝鲜要求外，确实难以与其他相似的免费工具拉开差距，甚至于在交互体验和内容即时性上，也开始落后于国内同行。

又如创新工场董事长兼CEO李开复创办的AI大模型创业公司“零一万物”去年11月推出的Yi-34B和Yi-6B两个开源大模型“抄袭 LLaMA”事件，虽然其始终没有承认抄袭，但也承认做法不妥，承诺将修改争议张量名。

号称国内领先和AI领军人物创办公司的大模型尚且如此，至于其他所谓大模型，相信人们都会有自己的判断。

AI算力芯片挑战英伟达，陷入纯算力PK误区

如果上述是我们国内在生成式AI“软”（大模型）方面与GPT的竞争是知其然不知所以然，那么在“硬”（AI芯片）方面表现又如何呢？

目前，具有国产AI加速芯片（等同于英伟达的GPU）的企业包括阿里巴巴（含光系列）、百度（昆仑系列）、华为（昇腾系列）、寒武纪（思元系列）、海光信息（深算系列）、燧原科技、天数智芯、壁仞科技、摩尔线程等。此外，景嘉微、龙芯中科也在研发云端AI加速芯片。

这里我们以媒体近期报道最多、最具代表性，同时也被认为最具挑战英伟达的华为昇腾和海光信息的深算为例来予以说明。

先看华为昇腾系列，据相关媒体报道，经过测试，目前在大模型推理方面，国内AI芯片910B仅能达到A100的60%-70%左右，集群的模型训练难以为继；同时，910B在算力功耗、发热等方面远高于英伟达A100/H100系列产品，且无法兼容CUDA，很难完全满足长期智算中心的模型训练需求。对此，有大型国企客户评价，华为昇腾确实够用，但不好用。原因何在？

其实不要说华为910B，其在2019年8月发布的昇腾910在某些媒体曝光的纸面数据上，就与英伟达在2020年5月发布的A100性能相当，但是华为不具备深度学习框架生态掌控力，导致Tensorflow/Pytorch两大主流深度学习训练框架没有基于华为昇腾910做特定的优化，相反，PyTorch、TensorFlow等主流的深度学习框架均提供了基于CUDA的英伟达GPU的运算支持，同时还有更高层、更抽象的调用方式，方便用户编程。所以算法结合上述两大训练框架在昇腾910上实际跑出来的性能其实不如英伟达A100，而目前仅华为自研的深度学习框架MindSpore对昇腾910和昇腾310做了特别优化，但由于华为MindSpore大部分精力都是放在对昇腾芯片的算子支持和优化上，对英伟达GPU的支持还不够，只有同时使用华为的深度学习框架和昇腾芯片才能同时发挥出两者的最佳性能。

而要想在深度学习训练框架要想打破Tensorflow和Pytorch的垄断必须要靠原始创新，但目前包括华为基于开源的MindSpore等在内的国产深度学习框架尚未很好解决上述两大训练框架的痛点。

说到深度学习框架，回望Caffe，其之所以能够在早期获得开发者欢迎是因为解决了深度学习框架从0到1的过程，Tensorflow之所以可以取代Caffe是因为解决了其不够灵活、不能自动求导、对非计算机视觉任务支持不好等问题，Pytorch之所以明显抢夺Tensorflow的份额是因为Pytorch引入了动态图解决了Tensorflow是静态图设计调试困难的问题。

相比之下，不仅是华为MindSpore，目前国产的深度学习框架百度Paddle Paddle、旷视Megengine等均还没有完美解决开发者在用Tensorflow和Pytorch所遇到的痛点。

此外，将AI芯片作为训练和推理，构建集群的能力至关重要，而这又和互联技术密切相关。

而提及互联技术，英伟达的NVlink通讯模组是目前市场上最先进的技术。尽管华为声称自己的卡间互联技术（模仿NVlink模式）也不错，但在进行8卡同时算力的训练模型训练时，与英伟达的技术相比仍存在差距。乐观地估计，要达到英伟达的技术水平，可能还需要两到三年的时间。不过，日前英伟达第五代NVLink，可为每个GPU提供了1.8TB/s双向吞吐量，确保多达576个GPU之间的无缝高速通信，适用于复杂大语言模型的发布，恐怕又会将华为甩开距离。

至于服务器与服务器之间的互联，目前大部分通用AI服务器之间的互联，英伟达推荐使用其IB交换机，因为这种交换模式在数据损失量方面表现最佳，技术成熟且经过20多年的市场验证，至今连模仿者都未能出现。

需要补充说明的是，由于华为受到非市场因素的影响越来越大，即便未来性能与英伟达产品在实际使用中相近，但由于制造工序等问题，未来差距可能会扩大。有部分报道称，昇腾的成品率仅为20%左右。这无疑使得上述类似国企的用户们，在不好用的同时，还会抬高他们使用昇腾的成本。

接下来，我们在看海光信息的深思DCU。

追根溯源，海光的DCU源自AMD的MI100芯片，这在其此前的招股说明书有描述。从源头可以看出，海光DCU是AMD Mi100的裁剪版，裁剪了50%的性能。最关键的痛点是，海光DCU从Mi100授权过来时，把GPU的互联接口（类似NVlink）从AMD的Infinity Fabric缩减成了xGMI接口（显卡场景），导致最多只能两颗GPU直联。因此无法组成大规模阵列（Nvidia A100可以16GPU集群，H100 256GPU集群），基本上丧失了训练能力（浮点性能低和无法集群组网）；至于推理能力，场景性价比很低，大概是2022年代主流专用推理芯片的10%—15%性能。

另外，深思属于兼容“类 CUDA”生态，但由于CUDA的闭源特性和快速迭代，后来者很难通过指令翻译等方式完美兼容，即使部分兼容也会有较大的性能损失，导致在性价比上会持续落后英伟达。

更不利的是，近日有消息称，英伟达可能禁止第三方硬件，也就是非英伟达的GPU，通过使用模拟层运行CUDA软件，而之前英伟达只是在在线EULA用户协议中提出警告而已。虽然对此业内持有不同的看法，但不管最后是否会付诸于行动，都暴露出所谓兼容CUDA所蕴含的巨大和未知的风险。

当然，随着深思的更新迭代，尤其是今年可能发布的深思三，希望上述短板可以有所改观。

综上，我们认为，在生成式AI中“硬”的AI芯片方面，我们的真实实力远非某些媒体报道的那么乐观，而这又和我们相关企业缺乏原始创新、走模仿（技术）和兼容（生态）的路线密切相关。

写在最后：

不可否认，在AI，尤其是生成式AI方面，我们已经失去了先发优势，但更可怕的是，从目前的发展路径看，为了追赶英伟达和OpenAI这一新的“Wintel效应”和借助被制裁而出现新的争夺国内AI芯片市场的所谓机会，我们有可能被人家带入后发劣势中，即借鉴和依赖往往无法标定泾渭分明的界限，在学习借鉴过程中形成“模式依赖”“路径依赖”“技术依赖”。只“借”不“鉴”、抑或是只借鉴不创新，知其然而不知其所以然，形成依赖性而不自知，甚至还沾沾自喜，进而使得我们在付出更大资源和社会成本、与人家科技创新和发展的逻辑是降本增效背道而驰的同时，导致差距会越来越大。