近日,科技巨头Meta重磅推出迄今能力最强的开源大模型Llama 3,引爆了整个全球开源 AI 行业。
与此同时,亿万富翁、Meta首席执行官马克·扎克伯格(Mark Zuckerberg)与知名科技播客主持人Dwarkesh Patel的对话也同步发出。这个长达80分钟的访谈里,扎克伯格主要围绕Llama3、通用人工智能(AGI)、能源问题、AI安全问题、开源的风险等进行探讨。
扎克伯格表示,Llama 3的推出,对于Meta AI来说是向前迈出了一大步。尽管AI不可能一夜之间变得极其聪明,人类需要时间去适应一下,但毫无疑问的是,AI 确实会改变我们的工作方式,为人类提供创意工具。
扎克伯格强调,他非常喜欢创新,特别喜欢围绕人们如何沟通、如何表达自己以及如何工作来构建新事物。因此,Meta就投资1000亿美元规划公司 AI 和“元宇宙”领域未来。如何Meta停止创新,他就要完了。
“人们总是存在争论,是否有足够的信心去构建新事物,但对我来说,如果我停止创新,我就完了。”扎克伯格表示。
针对于开源 AI 模型发展,扎克伯格称,开源是一项有效的措施,未来 AI 的集中化有可能像它的广泛传播一样危险,通过开源大模型解决更多的安全漏洞。因此,即便成本价值100亿美元的大模型,Meta也愿意开源。
“很多投资者和用户无法理解我们为什么要开源,我认为这在科技领域有着深刻意义,可以创造更多赢家。”扎克伯格说道。
扎克伯格强调,AI 已成为Meta公司的核心。未来,训练大型AI模型可能面临资本和能源限制等挑战,因此,公司将全方位发力AI技术,从而赋予人们更强大的工具完成更有挑战性的任务。
(本文首发于钛媒体App,作者|林志佳、AI科技组,编辑|胡润峰)
以下是此次扎克伯格对话全文整理,有删改:
主持人:Mark,欢迎来到这个播客。
扎克伯格:谢谢你邀请我。我是您播客的忠实粉丝。
主持人:大家很关心你们推出的新大模型,可以介绍一下吗?其中有哪些新鲜和令人兴奋的事情?
扎克伯格:我们正在推出Llama 3,将其作为开发社区的开源项目,我们相信它将为Meta AI的发展提供动力。围绕Llama 3,市场肯定会有各种讨论,但我认为最重要的是Meta AI是人们可以免费使用的最智能的AI助手。我们还整合了Google和Bing的搜索功能为用户提供实时信息,并将Meta AI在Facebook和Messenger等应用中置顶,用户可以在搜索框里提出任何问题。
这次我们还新增不少功能,其中有一个是生成动画,我觉得很棒,你可以拍摄任何图像并将其制作成动画,速度非常快,几乎可以实时更新。这项功能目前只在少数国家和地区推出了,不过未来几周或几个月内我们还会开展更多工作。
Llama 3的推出对于Meta AI来说是向前迈出了一大步。这次我们训练了三个版本:80亿参数、700亿参数和4050亿参数。我们会先发布其中一个版本,目前它们的规模处于领先地位,我们将发布一篇相关博客文章,以便人们可以自行查看,它是开源的,每个人都有机会使用它。我们制定了即将推出的新版本的路线图,这些版本将带来更多模式、更强语言性以及更大的上下文窗口。希望我们能在今年晚些时候推出4050亿参数的版本。就目前的训练情况而言,该模型已经达到85亿参数左右,我们预计它在一系列测试中处于领先地位。
更有趣的是,我们这次推出的80亿参数版本几乎与我们发布的最大规模的Llama-2一样强大。也就是说最小规模的Llama 3与最大规模的Llama 2一样强大。
主持人:你2022年就开始大量购买H100芯片了,这是一笔不小的开支,你怎么知道未来会需要这些GPU芯片呢?
扎克伯格:我想是因为我们当时在开发Reels。我们总是希望有足够的算力来构建一些我们还看不到的未来的东西。我们在开发Reels时遇到了这样的情况,我们需要更多的GPU来训练模型。这是我们服务的一个重大进化。我们不仅仅是对你关注的人或主页的内容进行排序,我们开始大力推荐我们所谓的非关联内容,也就是来自你没有关注的人或主页的内容。
我们可能向你展示的内容候选库从数千个量级扩大到数百万个量级。它需要一个完全不同的基础设施。我们开始着手进行这项工作,但在基础设施方面受到限制,无法以我们想要的速度赶上TikTok的进度。
我基本上是这样看的,我想:“嘿,我们必须确保不再陷入这种境地。所以让我们订购足够的GPU来完成Reels、内容排名和信息流方面需要做的事情。但让我们再加倍。”
事实上,大多数时候我们做的一些最终看起来不错的决定,是因为之前我们把事情搞砸了,只是不想重复这个错误,绕过这个错误反而到达了新的方向。
主持人:你有所有这些GPU,我想你说过到今年年底会有35万个。
扎克伯格:那是整个系列。我们建造了两个,我想是2.2万或2.4万的集群,这是我们用来训练大型模型的单个集群,显然是在我们所做的很多事情中。我们很多东西都用于训练Reels模型、Facebook新闻源和Instagram信息流。推理对我们来说是一件大事,因为我们为大量人提供服务。考虑到我们所服务的社区的庞大规模,我们所需的推理计算与训练之比可能比大多数从事这些工作的其他公司要高得多。
同时,很快,或许Llama 4就能用上定制模型训练。我们采取的方法是首先构建自定义芯片,可以处理我们的排名和推荐内容的推理,例如滚动消息、动态广告等,这会消耗大量GPU,我们现在只能用昂贵的英伟达GPU进行训练。我们希望能拥有自己的定制芯片,然后先用它来训练一些简单的东西,最终也会实现用它来训练大型AI模型的目标。这个计划进展顺利,我们有一个长期路线图,会有条不紊地推出它。
主持人:在他们事先与我分享的材料中,有一点很有趣,你在训练时使用的数据比仅用于训练的计算最优数据还要多。推理对你们来说是一个大问题,对社区也是如此,在里面放入数万亿个token是有意义的。
扎克伯格:尽管有了700亿参数的模型,有一件有趣的事情是,我们认为它会更加饱和。我们用大约15万亿个token对它进行了训练。我想我们一开始的预测是它会更多地渐近,但即使在最后它仍在学习。我们可能本可以给它更多的token,它就会变得更好一些。
在某种程度上,你在经营一家公司,你需要做这些Meta推理问题。我是想把我们的GPU花在进一步训练700亿模型上?我们是想继续下去,以便开始测试Llama-4的假设?我们需要做出这个决定,我认为我们在这个版本的700亿中取得了合理的平衡。未来还会有其他的700亿,多模态的那个,会在接下来的一段时间内推出。但令人着迷的是,在这一点上,架构可以接受如此多的数据。
主持人:未来几十年 AI 会发生什么?
扎克伯格:人类将会获得新的应用程序,这种创新带来的感觉更像是人类从没有电脑到拥有电脑时的感受。很难确切地推断出这种情况何时会发生,单从时间维度看,或许几十年就能实现,但AI不可能一夜之间变得极其聪明,我们需要时间去适应一下。不过毫无疑问的是,AI确实会改变我们的工作方式,为人类提供创意工具。
主持人:你们公司已经进行了很长时间的 AI 研究,现在AI也成为你公司的核心业务之一了,那你们打算何时打造AGI(通用人工智能),这会是Meta人工智能发展的首要任务吗?
扎克伯格:毫无疑问,这是一件大事,大约10年前我们就开始做这件事。我们的想法是在通向AGI的道路上,将会有不同的创新,这将改善我们所做的一切。我们并没有将AI视为一种产品,它更像是一个研究小组,过去10多年来,它创造了许多不同的东西,改进了我们所有的产品,推动了该领域的发展,并允许该领域的其他人创造出同样改进我们产品的东西。
随着ChatGPT和围绕图像创建的扩散模型问世,过去几年显然发生了很大的变化。那时,我们成立了生成式AI的小组,目标是将这些科技成果引入我们的产品中,并想要构建领先的基础模型来为我们的产品发展提供动力。
我们正在做的很多事情都充满了社交属性,无论是应用程序、智能眼镜还是VR,都是帮助人们与创作者互动、与企业互动,为企业销售产品提供客户支持。一开始并没有清晰地意识到AGI能支持这些用例,但通过努力,我们正在不断向AGI靠近。例如当时我们开发Llama 2时,没有优先考虑编码,因为人们不会在WhatsApp(免费的即时通讯和视频通话应用程序)中向Meta AI问很多编码问题。但在过去18个月中我们发现了令人惊讶的结果,编码在AI大模型中至关重要。即使人们不问编码问题,对模型进行编码训练可以帮助它们在回答问题时更加严谨,还能对问题进行推理。所以对于Llama-3,我们开始专注于通过大量编码来训练它,即使人们不问与编码相关的问题,这也能使它在服务中可以做得更好。
再比如推理,当你想与创作者聊天或者与客户互动时,并不是简单的一问一答,这是一个复杂的、有多个步骤的互动。需要大模型去思考“我要如何实现这个人的目标”。很多时候客户并不一定能清楚地表达他们想要什么,AI的工作并不仅仅是回答问题,需要更全面地思考,这就需要较强的推理能力。换言之,如果其他公司在AI推理方面取得了良好进展,而我们的AI还停留在只会简单聊天的阶段,那我们的产品就显得很蹩脚。所以我们意识到必须做AGI,解决这些问题,并且加大了投资来确保我们能做到这一点。
主持人:当你训练Llama 5或Llama 4时,发生什么会让你犹豫要不要开源它?
扎克伯格:我认为开源是一项有效的措施。我支持开源还有一层哲学逻辑,未来人工智能的集中化有可能像它的广泛传播一样危险。对于一个机构来说,拥有比其他人更强大的人工智能或许更可怕。我想到了一个安全类比,许多事物都存在安全漏洞,如果你比别人多了解一些安全漏洞,就可以入侵对方系统。相信一个非常聪明的人工智能能够识别一些漏洞,那如果它像人一样去入侵系统产生危害,那我们人类该如何去处理这个问题呢?
我想其中一个有效的方式就是开源人工智能模型,当对人工智能模型进行改进时,它不会仅仅停留在一家公司的产品中,而是可以广泛部署到不同的系统,这样可以让该模型变得更安全、更稳定。因为随着越来越多的人可以看到它、使用它,那它的工作模式就会逐渐标准化,所有依托于这个人工智能系统的软件都将在某种程度上受到控制,这是一个更健康的状态,有利于塑造更公平的竞争环境。
主持人:如果你们开发的大模型价值100亿美元,还能接受其他人对你们的模型进行微调吗?你们愿意开源价值100亿美元的模型吗?
扎克伯格:只要开源对我们有利,就会去做这件事情。我们一直致力于开源软件,不过我们不倾向于开源产品,更多的是开源一些基础设施,比如我们不会开源Instagram的代码,但会开放Llama大模型。
我们历史上最大的开源项目可能是开放计算机,我们对所有服务器、网络交换机和数据中心进行了设计,并将其开源,使得它变得非常有用。尽管很多人都可以设计服务器,但行业现在已经对我们的设计进行了标准化,这意味着供应链基本上都是围绕我们的设计构建的,所以我们的销量增加了,节省了很多成本。所以开源总的来说是利大于弊的,人们可以更便宜地使用大模型,虽然我们将在这些AI基础设施上花费数十亿、数千亿美元甚至更多,但如果我们能够提高10%的生产效率,就可以节省数十亿或数百亿美元,这本身就很有价值。特别是还要与其他大模型竞争,我们并不会放弃在这一领域拥有的独特优势。
很多投资者和用户无法理解我们为什么要开源,我认为这在科技领域有着深刻意义,这实际上创造了很多赢家。有些模型可以用来构建人们常常无法理解的东西,他们无法理解这对人们来说是一件有价值的事情。
主持人:就开源而言,我感到好奇的是,你认为PyTorch、React、Open Compute等开源项目对世界的影响,是否有可能超越Meta在社交媒体方面的影响?我曾与这些服务的用户交流过,他们认为这种可能性是存在的,毕竟互联网的大部分运行都依赖于这些开源项目。
扎克伯格:我们的消费产品确实在全球范围内拥有庞大的用户基础,几乎覆盖了全世界一半的人口。然而,我认为开源正成为一种全新的、强大的构建方式。它可能会像贝尔实验室一样,最初他们研发晶体管是为了实现长途通话,这一目标确实实现了,并为他们带来了可观的利润。但5年到10年后,当人们回顾他们最引以为傲的发明时,可能会提到其他更有深远影响的技术。
我坚信,我们构建的许多项目,如Reality Labs、某些AI项目以及一些开源项目,将对人类的进步产生持久而深远的影响。虽然具体的产品会随着时间的推移不断发展、出现和消失,但它们对人类社会的贡献却是持久的。这也是我们作为技术从业者能够共同参与的、令人振奋的部分。
主持人:你曾经有机会以10亿美元的价格卖掉公司,但你没有选择这么做,特别是当时市场并不看好元宇宙,我很好奇为什么你坚持发展元宇宙呢?
扎克伯格:我很喜欢创新,特别喜欢围绕人们如何沟通、如何表达自己以及如何工作来构建新事物。大学时我学习了计算机科学和心理学两门课程,这两门学科交织在一起,赋予我了一种非常深刻的驱动力。从本质上讲,如果我不构建新的东西,我就是在做错事。当我们在整理投资1000亿美元人工智能或元宇宙中巨额资金的商业案例时,我们制定了计划,这些计划已经非常清楚地表明,如果我们的产品有效,这将是一笔不错的投资。人们总是存在争论,是否有足够的信心去构建新事物,但对我来说,如果我停止创新,我就完了。
主持人:关于“纳入模型本身”,你是指在模型本身想要的东西上训练它吗?“纳入模型本身”是什么意思?
扎克伯格:对于Llama 2,工具的使用非常具体,而Llama 3在工具使用方面要好得多。我们不必手动编写所有的东西来让它使用Google并进行搜索。它可以直接做到这一点。类似地,对于编码和运行代码以及许多类似的东西也是如此。一旦你获得了这种能力,你就可以瞥见我们接下来可以开始做什么。
我们不一定要等到Llama-4出现才开始构建这些功能,所以我们可以开始在它周围做一些hack。你做了大量的手工编码,至少在过渡期内,这会使产品变得更好。然后这有助于为我们想要在下一个版本模型中构建的东西指明方向。
主持人:你最期待哪个Llama 3微调版本的发展?
扎克伯格:我认为这类东西的本质是你会感到惊讶。任何我认为有价值的具体事物,我们可能都在构建。我认为你会得到蒸馏版本。我认为你会得到较小的版本。有一点是,我认为80亿还不够小,无法满足大量用例。随着时间的推移,我很乐意得到一个10~20亿参数的模型,甚至是一个5亿参数的模型,看看你能用它做什么。
如果有80亿个参数,我们几乎和最大的Llama 2模型一样强大,那么有10亿个参数,你应该能做一些有趣的事情,而且速度更快。在将其提供给最强大的模型以完善提示应该是什么之前,它非常适合于分类,或者人们在理解用户查询意图方面所做的许多基本事情。我认为这可能是社区可以帮助填补的一个空白。我们也在考虑自己开始蒸馏其中一些东西,但现在GPU都被用来训练4050亿的模型了。
主持人:你提到过Meta即使研发预算或资本支出预算是现在的10倍,也无法负担得起的事情吗?有没有这样的事情,也许是与人工智能相关的项目,也许不是,即使像Meta这样的公司也没有资源?有没有你脑海中闪过的事情,但以现在的Meta,你甚至无法为此发行股票或债券?它的规模比你的预算大10倍?
扎克伯格:我认为能源是一个方面。我认为如果我们能获得能源,我们可能会建造比目前更大的集群。
主持人:这在极限情况下从根本上受到资金的限制吗?如果你有1万亿美元......
扎克伯格:我认为是时间问题。这取决于指数曲线走多远。现在许多数据中心的规模在50兆瓦或100兆瓦左右,或者一个大的数据中心可能是150兆瓦。拿一个整个数据中心,装满你需要做训练的所有东西,你建造你能建造的最大的集群。我认为有一群公司正在做这样的事情。
但是当你开始建造一个300兆瓦、500兆瓦或1吉瓦的数据中心时,还没有人建造过1吉瓦的数据中心。我认为这将发生。这只是时间问题,但不会是明年的事。其中一些事情需要几年的时间来建设。只是为了说明这一点,我认为一个千兆瓦的数据中心相当于一个有意义的核电站,只用于训练一个模型。
主持人:亚马逊没有这样做吗?他们有950兆瓦的。
扎克伯格:我不确切知道他们做了什么。你得问他们。
主持人:但它不一定要在同一个地方,对吧?如果分布式训练有效,它可以是分布式的。
扎克伯格:嗯,我认为这是一个大问题,它将如何工作。未来似乎很有可能,我们所说的这些大型模型的训练实际上更接近于推理生成合成数据,然后再将其输入模型。我不知道这个比例会是多少,但我认为合成数据的生成比今天的训练更像是推理。显然,如果你这样做是为了训练一个模型,它就是更广泛的训练过程的一部分。所以这是一个悬而未决的问题,这个平衡以及它将如何发展。
主持人:你是否希望通过将你的模型授权给云服务商来获得可观的收入?
扎克伯格:我们希望有这样的安排,但我不知道它会有多重要。这基本上是我们对Llama的许可,在很多方面,它是一个非常宽松的开源许可,只是我们对最大的公司使用它有一个限制。这就是我们设置这个限制的原因。我们不是试图阻止他们使用它。
我们希望这些巨头公司在使用我们的模型去赚钱时,能够与我们商谈,比如微软或亚马逊等大型云服务商,我们应该从中获得一些收入分成。
所以对于Llama-2,我们与基本上所有这些主要云公司都有交易,Llama-2作为托管服务在所有这些云上都可用。我假设,随着我们发布越来越大的模型,这将成为一件更大的事情。这不是我们正在做的主要事情,但我认为,如果这些公司要销售我们的模型,我们应该以某种方式分享其中的好处,这是有道理的。
主持人:让我们来探讨一下元宇宙,你对人类历史上的哪个时期最感兴趣?在元宇宙中你想回到哪个时代?
扎克伯格:我对美国历史和古典历史非常感兴趣,我对科学史也很感兴趣。事实上,看到并尝试更多地了解一些重大进步是如何产生的会很有趣。其实我们目前所拥有著作在某种程度上是极其有限的,我不太确定在元宇宙中是否会允许你回到没有记录的时代。以后元宇宙或许对上历史课很有帮助,但这不是我最感兴趣的用例。我的想法是,无论身在何处,都能感受到与人在一起的感觉。
在我们正在进行的人工智能对话中,大部分内容都是关于所有这一切背后的物理限制。我认为技术的一个教训是,希望尽可能地将事物从物理约束领域转移到软件中,因为软件更容易构建和发展。或许不是每个人都会拥有数据中心,但很多人都可以获取开源代码并对其进行修改。当元宇宙实现了对现实世界的数字化构建,肯定会带来改变,人们或许不会再觉得他们必须一起做很多事情。总的来说,我认为元宇宙对社交、工作等很多事情产生重要影响。
我最喜欢的名言之一是毕加索曾说过的:“所有孩子都是艺术家,面对的挑战是在成长过程中保持艺术家的身份。”当你年轻时,更容易产生疯狂的想法,在你的生活和事业中,都存在着与创新者困境类似的困难。当你处于发展的早期阶段,会更容易转变和接受新想法。我认为这是经营公司的一个有趣的部分:如何保持活力,如何持续创新。
总有这样的情况,组织中会发生一些随机的令人惊奇的事情,而我甚至都不知道,那些都很棒。总的来说,组织的能力在很大程度上受到首席执行官和管理团队监督能力的限制,这是我们需要关注的重点。正如风投家本·霍洛维茨(Ben Horowitz)所说:要把主要的事情放在首位,努力专注于那些关键优先事项。
主持人:开源大模型风险开始增多,现在它们就像Google搜索使用大模型,在目前样本中生长以及改变,你如何缓解这个问题?因为有人可以直接微调进去,对吧?
扎克伯格:这是真的。我认为,大多数人会选择直接使用现成的模型,但也有一些心怀不轨的人可能会试图利用这些模型进行不良行为,另一方面,我在哲学上如此支持开源的原因之一是,我认为未来如果人工智能过度集中化,其潜在风险可能不亚于它的广泛传播。许多人都在思考:“如果我们能够做到这些,那么这些技术在社会上的广泛应用是否会成为坏事?”同时,另一个值得思考的问题是,如果一个机构拥有比其他所有人更强大的人工智能,这是否也是一件坏事?
我想到一个安全类比,许多不同的事物中存在如此多的安全漏洞。如果你能回到一两年前,假设你只是多了一两年关于安全漏洞的知识。你几乎可以侵入任何系统。这不是人工智能。所以相信一个非常智能的人工智能可能能够识别一些漏洞,基本上就像一个人类可以回到一两年前并破坏所有这些系统,这并非完全是天方夜谭。
那么我们作为一个社会是如何应对这种情况的呢?一个重要部分是开源软件,它使得当软件得到改进时,它不会只局限于一个公司的产品,而是可以广泛部署到许多不同的系统中,无论是银行、医院还是政府的东西。随着软件变得更加强大,这是因为更多的人可以看到它,更多的人可以敲打它,关于这些东西如何工作有一些标准。世界可以一起很快升级。
我认为,在一个人工智能被非常广泛部署的世界里,它已经随着时间的推移逐步得到强化,所有不同的系统都会以某种方式受到制约。在我看来,这从根本上比这种情况更集中要健康得多。所以各方面都有风险,但我认为这是一种我没听到人们谈论得那么多的风险。有人工智能系统做坏事的风险。但我整夜担心的是,一个不值得信赖的行为者拥有超级强大的人工智能,无论是敌对的政府、不值得信赖的公司还是其他什么。我认为这可能是一个大得多的风险。
主持人:最后一个问题。这完全是题外话,如果你被任命为Google+的CEO,你能让它成功吗?
扎克伯格:Google+?哦。好吧,我不知道。我不知道,这是一个非常困难的反事实。
主持人:好的,那真正的最后一个问题是:当Gemini推出时,办公室里有人说过 “Carthago delenda est”(迦太基必须被摧毁)吗?
扎克伯格:不,我想我们现在更温和了。这是个好问题。问题是Google+没有CEO。它只是公司内部的一个部门。你之前问过什么是最稀缺的商品,但你问的是美元方面的问题。我实际上认为,对于大多数这种规模的公司来说,最稀缺的是专注。
当你是一家初创公司时,也许你在资金方面更受限制。你只专注于一个想法,你可能没有所有的资源。在某个时候,你会跨越一个门槛,进入你所做事情的本质。你正在构建多个东西,你在它们之间创造了更多价值,但你在能够投入其中的精力上变得更加受限。
总有一些情况,组织中会随机发生一些很棒的事情,而我甚至都不知道。那些都很棒。但我认为一般来说,组织的能力在很大程度上受到CEO和管理团队能够监督和管理的内容的限制。这对我们来说一直是一个重点。正如本·霍洛维茨所说,我们应该把主要的事情放在首位,并尽量专注于你的关键优先事项。
主持人:非常感谢。马克,你做得太棒了。
本文部分中文翻译信息源来自中国企业家杂志、华尔街见闻、Kimi智能助手等。
根据《网络安全法》实名制要求,请绑定手机号后发表评论