李开复最新专访,谈如何降低Yi-34训练成本

钛度号
中国的创业者坚韧不拔。

图片来源@视觉中国

图片来源@视觉中国

文 | 宇婷DayDayUp

根据创业投资家、前谷歌中国总裁、今年早些时候创办了位于北京的大型语言模型开发初创公司01.AI的李开复的说法,中国的生成型人工智能初创公司正在经历“预选赛阶段”。上个月,该公司以10亿美元的估值完成了一轮融资。

中国最大的互联网公司,如阿里巴巴、腾讯、百度和字节跳动,以及数十家初创公司,都在开发自己的大型语言模型,当地媒体将其描述为“百模之战”。由于中国政府封锁了OpenAI、谷歌和其他美国互联网服务,国内公司正争夺人工智能的霸主地位。李开复在接受采访时表示,公司目前正处于试图证明自己具备构建高质量模型的技术的阶段。那些通过了这一测试的公司将进入下一阶段,这将涉及如何增加收入并最终实现盈利。

李开复的公司成立于今年3月,现在拥有100多名员工,大部分位于中国大陆,主要是北京。上个月,01.AI推出了其第一个开源语言模型Yi-34B,但该公司不会依赖该模型来获取未来的收入。相反,它的商业计划是销售专有的语言模型,主要面向中国的客户。据李开复称,该公司目前正在开发一个拥有超过1000亿参数的新的专有模型。

上个月,Yi-34B迅速攀升至Hugging Face开源语言模型排行榜的首位,引发了一些争议。开发者的询问揭示出Yi-34B使用了Meta Platforms的Llama开源AI模型,但没有提及Llama。最终,01.AI将Yi-34B的部分重命名以致谢Llama,并对此事进行了道歉。

李开复在北京的办公室通过视频通话接受了《The Information》的采访,他谈到了01.AI如何应对美国政府对芯片出口的限制,以及中国人工智能公司在全球的机会。以下是经过编辑的问答内容。

《The Information》:目前中国拥有数十家甚至更多开发大型语言模型的国内竞争对手。接下来会发生什么?

我认为中国在以前的很多情况下都经历过这种情况,比如Groupon的仿制品、共享单车应用,以及在深度技术领域的计算机视觉和语音识别。当计算机视觉被证明取得重大突破时,中国的每个人都纷纷加入,并尝试用各种可能的应用。但其中大多数都没有生存下来。中国市场是一个非常非常竞争激烈的市场,甚至可能比美国还要激烈。

目前中国的竞争仍处于预选赛阶段。第一个测试是:在这100家公司中,哪一家能够创建出具有真正价值的高质量模型?这意味着要展现出良好的性能,因为在提供有用内容和战略洞察方面,技术的优劣仍然是至关重要的。如果你没有足够好的模型,那么它更像是一个玩具,而不是一个解决实际问题的技术。

在预选赛阶段通过技术测试的公司将进入下一个阶段,即商业价值。你的商业模式是什么?你如何赚钱?很快,这些公司将根据其损益报表进行评估,投资者将问与云服务提供商、企业软件公司和消费者应用程序相同的问题。如果公司无法回答这些问题,它们的增长将停止。在美国,OpenAI已经证明了其世界领先的技术,它也能够产生收入。OpenAI创造了足够的价值,以至于人们在其上构建应用并为此付费。

在中国,最终会有几家大赢家,几家不错的退出,但大多数公司最终要么会退出市场,要么会转向更为保守的领域,例如为特定行业构建应用程序和解决方案,而不是尝试预训练的大型模型,因为这类模型的成本将随时间增加。

中国人工智能初创公司及其投资者表示,中国将与美国分开发展生成型人工智能模型和应用的生态系统。你怎么看?

我们都不希望出现平行宇宙。我们更喜欢在全球范围内竞争,让最好的公司获胜。这样更加高效。但在这种情况下,我们无法控制我们的命运。

尤其存在地缘政治问题。如果我们想进入美国市场,虽然没有规定说我们不能进入,但由于当前对中国软件的(我认为是不公平的)看法,我认为我们不会获得很多业务。所以这只是我们接受了的实际情况。

各国希望对自己的模型拥有更多控制权。

我确实认为有机会为不同的国家构建特殊的模型。这是硅谷公司自然不会去做的事情。为不同的市场构建不同的模型是一项庞大的工程任务。因此,硅谷公司自然不会倾向于构建这些模型。而来自世界其他地区的公司,包括中国,可能有机会研究这些模型。当然,他们必须赢得用户和各国政府的信任。

中国媒体报道称,您的初创公司成功降低了Yi-34B的人工智能训练成本。如何做到的?

我们拥有一个非常强大的基础设施团队。这是我们团队中最大的一部分。我早些时候告诉我的员工,每当你增加一个建模人员,你就在稀释你的[图形处理单元]。每当你增加一个基础设施人员,你就能更好地利用你的GPU。当然,你需要一个强大的建模团队,但从一开始,我们就把建立一个强大的基础设施团队作为首要任务。

基础设施是默默无闻的英雄之工作。他们必须处理硬件、软件和大量的数据传输。他们同时处理GPU、内存和网络,其中任何一个都可能成为瓶颈。

GPU很难扩展到数千个以上。当你从2000个扩展到8000个时,你不能只运行现有的软件,因为随着模型和数据规模的增大,网络需求会发生巨大变化。

我们的基础设施团队由几十名工程师组成,目前是01.AI最大的团队。例如,我们的基础设施团队所做的工作包括全面使用FP8——Nvidia H100芯片的一种数据格式,从而大幅减少计算量。团队找出了在哪些地方可以使用FP8,在哪些地方可以使用其他类型,并且如何无缝转换。他们还处理了像使用哪种网络协议、如何优化编译器以及如何处理故障GPU等问题。GPU的故障率实际上相当高。当一个GPU故障时,你能热插拔吗?拔掉?我们仍在努力解决这个问题。如果你的训练因为一个GPU在千个GPU集群中故障而停止一个小时,能够热插拔将节省你每天一个小时的时间。这些小事情都会累积起来。

另一个相关的问题是弹性训练。这意味着如果你有一个由2000个H100芯片组成的集群,并且你需要500个用于其他任务,你能在检查点之间移除它们,然后再添加回来吗?这些任务与AI研究人员的训练并不相关,更与网络工程师有关。

如果LLM的开发是火箭科学,那么没有工程师,火箭将永远无法起飞。SpaceX之所以成功,并不仅仅因为一群研究人员,而是因为它有一大批非常复杂、错综复杂的工程师。

对于Nvidia芯片。您是如何应对的?

我公开表示,我们有足够的芯片供应可以维持18个月的时间。这基本上是之前我们购买的芯片。我们肯定在努力研究如何使用中国芯片。

Nvidia的芯片非常出色,但有人可能会争辩说,一个更简单的芯片可以以更低的成本完成工作。但Nvidia的强大之处在于其围绕CUDA软件库建立的整个生态系统,使得编程变得简单。如果强迫工程师使用非Nvidia芯片,他们的工作效率会大大降低,他们基本上会反对这样做。但我们现在面临的问题是在18个月内,我们必须开始得更早。如果我们无法获得Nvidia芯片,我们将寻找更专注于transformers的更简单的芯片,但编程将变得非常困难。但如果我们别无选择,那我们就别无选择。

但是中国工程师以能力强、肯做苦工而著称。这与我之前关于我们基础设施团队的工作所说的类似。

中国的创业者坚韧不拔。中国的工程师勤奋努力,他们不怕苦。这正是美团打造卓越服务的原因,也是微信成为卓越产品的原因。

是的,这些都是困难的挑战,你可以说它们是浪费时间和许多人的精力。但这就是我们面临的现实,所以我们会尽力发挥我们的优势。

本文系作者 宇婷DayDayUp 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App