李开复最新专访，谈如何降低Yi-34训练成本-钛媒体官方网站

图片来源@视觉中国

文 | 宇婷DayDayUp

根据创业投资家、前谷歌中国总裁、今年早些时候创办了位于北京的大型语言模型开发初创公司01.AI的李开复的说法，中国的生成型人工智能初创公司正在经历“预选赛阶段”。上个月，该公司以10亿美元的估值完成了一轮融资。

中国最大的互联网公司，如阿里巴巴、腾讯、百度和字节跳动，以及数十家初创公司，都在开发自己的大型语言模型，当地媒体将其描述为“百模之战”。由于中国政府封锁了OpenAI、谷歌和其他美国互联网服务，国内公司正争夺人工智能的霸主地位。李开复在接受采访时表示，公司目前正处于试图证明自己具备构建高质量模型的技术的阶段。那些通过了这一测试的公司将进入下一阶段，这将涉及如何增加收入并最终实现盈利。

李开复的公司成立于今年3月，现在拥有100多名员工，大部分位于中国大陆，主要是北京。上个月，01.AI推出了其第一个开源语言模型Yi-34B，但该公司不会依赖该模型来获取未来的收入。相反，它的商业计划是销售专有的语言模型，主要面向中国的客户。据李开复称，该公司目前正在开发一个拥有超过1000亿参数的新的专有模型。

上个月，Yi-34B迅速攀升至Hugging Face开源语言模型排行榜的首位，引发了一些争议。开发者的询问揭示出Yi-34B使用了Meta Platforms的Llama开源AI模型，但没有提及Llama。最终，01.AI将Yi-34B的部分重命名以致谢Llama，并对此事进行了道歉。

李开复在北京的办公室通过视频通话接受了《The Information》的采访，他谈到了01.AI如何应对美国政府对芯片出口的限制，以及中国人工智能公司在全球的机会。以下是经过编辑的问答内容。

《The Information》：目前中国拥有数十家甚至更多开发大型语言模型的国内竞争对手。接下来会发生什么？

我认为中国在以前的很多情况下都经历过这种情况，比如Groupon的仿制品、共享单车应用，以及在深度技术领域的计算机视觉和语音识别。当计算机视觉被证明取得重大突破时，中国的每个人都纷纷加入，并尝试用各种可能的应用。但其中大多数都没有生存下来。中国市场是一个非常非常竞争激烈的市场，甚至可能比美国还要激烈。

目前中国的竞争仍处于预选赛阶段。第一个测试是：在这100家公司中，哪一家能够创建出具有真正价值的高质量模型？这意味着要展现出良好的性能，因为在提供有用内容和战略洞察方面，技术的优劣仍然是至关重要的。如果你没有足够好的模型，那么它更像是一个玩具，而不是一个解决实际问题的技术。

在预选赛阶段通过技术测试的公司将进入下一个阶段，即商业价值。你的商业模式是什么？你如何赚钱？很快，这些公司将根据其损益报表进行评估，投资者将问与云服务提供商、企业软件公司和消费者应用程序相同的问题。如果公司无法回答这些问题，它们的增长将停止。在美国，OpenAI已经证明了其世界领先的技术，它也能够产生收入。OpenAI创造了足够的价值，以至于人们在其上构建应用并为此付费。

在中国，最终会有几家大赢家，几家不错的退出，但大多数公司最终要么会退出市场，要么会转向更为保守的领域，例如为特定行业构建应用程序和解决方案，而不是尝试预训练的大型模型，因为这类模型的成本将随时间增加。

中国人工智能初创公司及其投资者表示，中国将与美国分开发展生成型人工智能模型和应用的生态系统。你怎么看？

我们都不希望出现平行宇宙。我们更喜欢在全球范围内竞争，让最好的公司获胜。这样更加高效。但在这种情况下，我们无法控制我们的命运。

尤其存在地缘政治问题。如果我们想进入美国市场，虽然没有规定说我们不能进入，但由于当前对中国软件的（我认为是不公平的）看法，我认为我们不会获得很多业务。所以这只是我们接受了的实际情况。

各国希望对自己的模型拥有更多控制权。

我确实认为有机会为不同的国家构建特殊的模型。这是硅谷公司自然不会去做的事情。为不同的市场构建不同的模型是一项庞大的工程任务。因此，硅谷公司自然不会倾向于构建这些模型。而来自世界其他地区的公司，包括中国，可能有机会研究这些模型。当然，他们必须赢得用户和各国政府的信任。

中国媒体报道称，您的初创公司成功降低了Yi-34B的人工智能训练成本。如何做到的？

我们拥有一个非常强大的基础设施团队。这是我们团队中最大的一部分。我早些时候告诉我的员工，每当你增加一个建模人员，你就在稀释你的[图形处理单元]。每当你增加一个基础设施人员，你就能更好地利用你的GPU。当然，你需要一个强大的建模团队，但从一开始，我们就把建立一个强大的基础设施团队作为首要任务。

基础设施是默默无闻的英雄之工作。他们必须处理硬件、软件和大量的数据传输。他们同时处理GPU、内存和网络，其中任何一个都可能成为瓶颈。

GPU很难扩展到数千个以上。当你从2000个扩展到8000个时，你不能只运行现有的软件，因为随着模型和数据规模的增大，网络需求会发生巨大变化。

我们的基础设施团队由几十名工程师组成，目前是01.AI最大的团队。例如，我们的基础设施团队所做的工作包括全面使用FP8——Nvidia H100芯片的一种数据格式，从而大幅减少计算量。团队找出了在哪些地方可以使用FP8，在哪些地方可以使用其他类型，并且如何无缝转换。他们还处理了像使用哪种网络协议、如何优化编译器以及如何处理故障GPU等问题。GPU的故障率实际上相当高。当一个GPU故障时，你能热插拔吗？拔掉？我们仍在努力解决这个问题。如果你的训练因为一个GPU在千个GPU集群中故障而停止一个小时，能够热插拔将节省你每天一个小时的时间。这些小事情都会累积起来。

另一个相关的问题是弹性训练。这意味着如果你有一个由2000个H100芯片组成的集群，并且你需要500个用于其他任务，你能在检查点之间移除它们，然后再添加回来吗？这些任务与AI研究人员的训练并不相关，更与网络工程师有关。

如果LLM的开发是火箭科学，那么没有工程师，火箭将永远无法起飞。SpaceX之所以成功，并不仅仅因为一群研究人员，而是因为它有一大批非常复杂、错综复杂的工程师。

对于Nvidia芯片。您是如何应对的？

我公开表示，我们有足够的芯片供应可以维持18个月的时间。这基本上是之前我们购买的芯片。我们肯定在努力研究如何使用中国芯片。

Nvidia的芯片非常出色，但有人可能会争辩说，一个更简单的芯片可以以更低的成本完成工作。但Nvidia的强大之处在于其围绕CUDA软件库建立的整个生态系统，使得编程变得简单。如果强迫工程师使用非Nvidia芯片，他们的工作效率会大大降低，他们基本上会反对这样做。但我们现在面临的问题是在18个月内，我们必须开始得更早。如果我们无法获得Nvidia芯片，我们将寻找更专注于transformers的更简单的芯片，但编程将变得非常困难。但如果我们别无选择，那我们就别无选择。

但是中国工程师以能力强、肯做苦工而著称。这与我之前关于我们基础设施团队的工作所说的类似。

中国的创业者坚韧不拔。中国的工程师勤奋努力，他们不怕苦。这正是美团打造卓越服务的原因，也是微信成为卓越产品的原因。

是的，这些都是困难的挑战，你可以说它们是浪费时间和许多人的精力。但这就是我们面临的现实，所以我们会尽力发挥我们的优势。