对话海外AI配音产品LipDub缔造者：我没有看到中国这类AI产品的竞争对手

MARZ联合创始人马特·佩诺西斯（Matt Penousis）强调，AI 音频技术具有广阔场景，需要市场不断加大对AI音频技术的关注。

（图片来源：unsplash）

近日，“EYE ON AI”创始人、钛媒体AGI平台美国特约作者Craig Smith，与缔造海外AI语音产品LipDub背后的创业公司Monsters Aliens Robots Zombies（MARZ）联合创始人马特·佩诺西斯（Matt Penousis）进行近一小时的对话，探讨 AI 视觉与音频领域的发展状况与落地效果。

Matt表示，观看《鱿鱼游戏》后，团队意识到可以解决口型与音频不同步的问题，于是开发了LipDub，旨在自动同步口型与新的配音音轨。而截至目前，LipDub不仅服务于好莱坞，还扩展到广告、在线教育、YouTube这类在线视频等多个领域。

对于中国市场，Matt认为，中国是一个巨大的市场，尤其是考虑到中国拥有众多的方言和语言，这为LipDub技术提供了广阔的应用空间。但他也认为，中国在AI音频技术上的迅猛进步，最终导致其在这一领域也在与美国等国家进行积极的探索和竞争。

Matt提到，除了帮助英语内容进入非英语市场外，LipDub也可以帮助中文内容进入英语和其他语言市场，打破文化和语言障碍。比如，有一些中国公司展示了让特朗普说中文的视频，虽然当时只是声音克隆，但这也显示了中国在这一领域的技术实力。

Matt强调，AI 音频技术具有广阔场景，需要市场不断加大对AI音频技术的关注。“我们绝对认为，LipDub 是一款很棒的产品，它在世界上为我们占有一席之地。随着公司的发展，我们将进行大量新产品开发，我们的重点是让个人可以参与并发挥这种创造力。尽管我们有一些很酷的想法，但确实在努力保持专注，至少现在是这样，LipDub不会是我们推出的最后一个产品。”

以下是Craig Smith与Matt Penousis的对话速记，由钛媒体AGI经授权编译如下：

Craig：好的。那么马特，请先自我介绍一下呢？请告诉我们一些您的背景以及您是如何加入 LipDub 的。

Matt：当然。我叫马特·佩诺西斯 (Matt Penousis)，是Monsters Aliens Robots Zombies联合创始人。

此前我是一名律师，开始了我的第一次。在法学院毕业之后，如今进入了软件企业。所以，我学习的知识与我们今天在这里所做的工作无关。此前创立了一家名为Acto的电子学习公司，花了五年的时间。

后来，在Acto上的工作就结束了。然后，我现在的合伙人的两个合伙人创办了一家视觉效果公司，我对此很感兴趣。我对这个空间一无所知。我们是如何到达 LipDub 的？

第一阶段是我们所处的阶段，我们正在为一家视觉效果公司工作，我们看到了好莱坞对更快、更便宜的视觉效果的需求。因此，我们开始问自己，怎样才能以更快的速度、更好的价格、并且不牺牲质量来进行视觉特效工作或视觉效果工作。我们很早就认识了。

早在 2018 年，我们就开始考虑，如果我们要做出改变，或者为好莱坞提供真正差异化的产品，我们就需要投资于创新，而考虑到这些目标，当时 AI 似乎是我们值得信赖的正确创新。做出决定后，我们就开始寻找应用。因为当你与好莱坞合作时，你会做很多不同的事情。你可能正在为《怪奇物语》制作一个生物，或者你可能正在让多伦多的天际线看起来像纽约的天际线，或者你可能正在使某人变老，或者你可能正在创建一个波浪模拟。

视觉效果是一个如此广泛、如此笼统的术语，如果你想在这个领域尝试和创新，那么你真正选择一个你想要自动化的应用是非常重要的。我们正在寻找广泛应用，因为好莱坞的 AI 产品研发工作非常密集，你当然不想花费数年时间来构建和自动化几乎不出现或出现的用例十分之一的项目。您确实在寻找出现在绝大多数项目中的用例。

随后，我们决定投资的第一个应用程序叫做Vanity AI（虚荣）。我们喜欢它的原因是，数字化妆和抗衰老确实出现在绝大多数好莱坞项目中。与此同时，我们觉得Vanity AI 显然早于今天所处的新一轮 AI 热潮，但我们觉得技术已经足够好以适应这种用例。

因此，我们MARZ建立并使用了一个内部 AI 工具，它可以缩短视觉特效艺术家进行数字化妆或去老化镜头所需的时间。因此，以前五秒的镜头可能需要视觉特效艺术家半天的时间，根据客户的要求以及你要改变脸部的程度，可能需要艺术家两三天的时间。所以 Vanity 将平均每次拍摄时间缩短为 25 分钟。

所以这是我们的第一次尝试，基本上我们已经在处理脸部，他们称之为深度面部编辑。

不久之后，《Squid Game》（鱿鱼游戏）就问世了。我们大多数人都观看了这个系列，这是一个精彩的故事，但显然，嘴唇和音频之间缺乏同步，使我们脱离了体验。

因此，我们认为，这可能是一个需要解决的非常有趣的问题。而今天，我们通过LipDub创建这种高度自动化的视觉效果应用程序。而唇音配音背后的最初论点是，通过自动将唇音与输入系统的任何新配音音轨同步，让好莱坞配音第一次看起来真实。

这就是我们开始做LipDub的原因，显然现在我们已经进入市场了。就我们如何实现这一目标而言，这就是一种演变历史。

Craig：是的。当你说这是一个需要解决的问题时，其实还有其他技术和解决方案。我想到了 Rask AI，但它们并不那么精确。从我对唇配音和好莱坞的理解来看，更精确的解决方案是你们与其他公司的不同之处吗？

Matt：是的。所以对我们来说，就像好莱坞一样，显然你要解决的质量标准是尽可能高的。因此，很多东西需要在一定水平上工作才能可用。所以显然，衔接必须是完美的。纹理的保真度和您操作的分辨率必须是。好莱坞级别，现在通常是 4k，纹理的保真度必须非常出色。如果你有胡子，如果我们对你进行口型配音，我们将在这里做，我们希望能够看到你胡子上的每一缕头发。因此，我们解决这个问题的一个重要要求是面部的清晰度、纹理和纹理保真度。

另一个明显的事实是，在好莱坞，很少有事情只是单一身份看着屏幕，而是人们跑过，逃离燃烧的建筑物，以及有 10 个角色说话而人们将头转向的场景。侧面和灯光正在变化。因此，我们投入大量研发工作的真正原因不仅是能够做出出色的清晰度和高分辨率、高保真度纹理，而且还能够制作困难的内容，或者我们在内部称之为动态内容。

因此，当您考虑市场上的其他工具时，Rask 就是一个例子，有趣的是，这些工具是从音频方面开始的，因此它们的最初目的是自动化方程式的配音方面，而我们从不担心这一点，因为之前好莱坞为我们提供音轨，具有更多的高级音频效果。

现在，一些音频公司已经开始努力进行口型同步。因此，我们提供一应俱全的本地化解决方案，但我们的区别在于，当您使用 LipDub 时，您将获得市场上最好的清晰度、市场上最好的分辨率，并且您的创造力不受限制。您可以使用 LipDub 做任何事情。你可以做人移动，你可以做人以侧面姿势说话，你可以做物体干扰，物体经过脸部。而且，老实说，我认为这些都是大问题。无论您做什么，无论您的视频内容涉及什么，您都不受限制。而大多数此类消费级系统甚至连基本功能都难以解决。

Craig：是的，那么您的解决方案或您的平台如何与现有的配音解决方案集成？显然我认为Eleven Labs 是目前的领导者或者 DeepDub，那么，您谈到了这些全面的解决方案，对于更高的消费级产品，您是否打算将配音、部分添加到您的平台上？

Matt：是的。这当然是我们经常谈论的事情。因此，今天我们大多数好莱坞以外的客户，以及广告商客户，他们要么为自己的员工提供在线教育，要么比方说在 YouTube 频道、广告代理商上销售课程，我们意识到其中有很多，很多这些用户确实也需要解决音频问题。

广告在某种程度上是一个例外。他们仍然利用真实的配音，但你可以看到他们实际上开始转向这些真正经济的解决方案我们今天与现有客户的方法是去购买 Deep Dub，去购买 Eleven Labs，然后使用我们。

我认为，我们未来的发展方向是我们可能会成为一种工具，但还没有决定到底是哪一个。然而，我们有很多客户要求一站式服务，并不是说使用两个软件，因此我们这一套方案是对市场有利的。

Craig：那么，用于匹配嘴唇运动或操纵视频中像素的算法的流程、技术流程是什么？产品本身是如何工作的？

Matt：无法透露太多，因为我们所做的很多事情以及使我们与众不同的原因，过去两年多的时间里，我们公司做了很多技术和专业工作，它的运作方式类似于 Dropbox。

如果你就拥有了一份原创文件，假设其是用英语制作的，而您希望以普通话为目标。这正是我们在这个播客中要做的事情。Liptub上的产品过程非常简单。您可以在media上传后，系统要做的第一件事是实际检测并跟踪在媒体中找到的所有面孔。然后，它会提示用户继续标记所找到的面孔，一旦标记完毕，LipDub 就会了解身份。对于一个小时的内容来说，上传媒体和标记的过程可能需要大约 20 分钟的预处理时间。

一旦你有了经过处理的视频，你所要做的就是在中间进行一个训练步骤。所以，我们的系统所做的就是实际训练，得到增强的配音效果和匹配效果，这是我们计算过程中最长的部分。而过去需要10个小时的时间，现在我们已经减少到2小时，并且我们将继续努力缩短时间。最后，将新的音频文件与这些扬声器相关联，这是一个简单的拖放操作。

对我来说也是如此。这就是平台上的一般流程。

Craig：这个平台正在做的是逐帧操作的音视频对齐，那么这是用补丁完成的吗？如何替换大面积的像素，以及它如何与音频中嘴唇的闭合或张开相关联？

Matt：是的。所以我们生成的几乎是眼睛下方的所有东西。这是基于音频的重建，随着时间的推移，我们不断进行修改，并且不断发展。就系统的工作原理而言，大多数人都能弄清楚其中的一些显现层面，再说一次，音素的数量是有限的，然后是与这些音素相关的双音素正完成映射。但这才是真正开始。

我们很早就认识到口腔内部结构的重要性。我们说话的大部分内容，实际上不是我们的嘴唇，而是我们的舌头，而是我们的牙齿。有些单词几乎完全是由我们的舌头产生的，所以你可能有两个非常相似的嘴形。但不同的舌头和牙齿位置会产生不同的声音。这对我们来说是一个巨大的挑战，我们要弄清楚如何正确地处理口腔内部结构？然后就是如何个性化？你如何确保我正在重建的内容不只是看起来像任何一组嘴唇或随机的一组嘴唇或嘴唇的代理，你如何使它看起来完全像说话者，然后你就继续前进解决这个问题的长尾问题。

Craig：是的。我们讨论了现有的消费级产品。我们要用中文来做这件事，我在中国有观众。中国人有类似的解决方案吗？因为很多时候，他们正在与美国的解决方案进行最前沿的竞争。

Matt：是的，现在有相当多的产品，它对我们来说是有效的，因为。我们觉得从很多方面来说，我们都是这个类别的开创者。有一家公司在口型同步方面比我们早，但他们并不专注于自动化，这对我们来说非常重要，不是为了自动化而自动化，但我们总觉得即使我们可以口型同步，如果需要太长时间或者如果成本太高，就会限制大多数用例的可访问性。

因此，就全球第一批真正实现在这种质量水平上运行的东西的自动化而言，就像我们真的觉得我们推出了这个类别一样，是的，当然现在我们看到一群人进来并称他们为快速追随者公司。不同之处在于，这些公司中的大多数只是包装者。

他们只是围绕开源和中国市场。当然，它们本质上受到开源以及开源所能带来的限制。两年前，我们开始使用开源，但刚刚意识到它甚至没有让我们接近我们需要达到的目标。但目前，我们没有看到任何中国的竞争对手。

Craig：我问起中国的原因是，有一个著名的视频，我认为这是感知时间或我飞行科技。我不记得是哪一个了。中国公司推出了特朗普用中文说话的内容，这让当时的所有人都感到震惊，这是一个声音克隆，但口型同步并不存在。所以我想知道，中国人是否已经解决了假唱部分。对于您口型同步的视频的每一分钟或一小时，这个过程需要多长时间，或者像您所说的那样，根据场景的动态程度而变化，需要多少分钟或几小时？

Matt：是的，粗略地说，您想要在平台上生成的每一分钟新内容，现在可能需要10-20分钟。虽然它不是线性的。这并不是说您在系统中运行一小时的内容，随着内容的移动，速度会变得更快。但因为我们以可扩展的方式构建了一切。所有这些过程。可以并行进行。

举个例子，如果我们将这次对话口译成十种语言。您可以在云端同时生成所有 10 个新视频，并且您可能会猜测，是的，它可能会在一个小时内平均达到每分钟 10 分钟左右。不包括培训。训练是这样的，你必须做两个小时，你做一次。您不必针对每种语言执行此操作。您只需执行一次即可真正了解纹理。然后，是的，您看到的可能是每分钟 10 分钟左右。

Craig：是的。成本摆在那里，你如何定价？是订阅模式吗？还是说按分钟收费或如何收费？

Matt：是的，你说得完全正确。所以这是一种订阅模式。

它的工作原理是您在平台上预先购买积分。您可以每月购买积分，也可以每年购买积分。如果您每月购买积分，这是一种“使用或丢失”模型，您将获得当月分配的积分，而未使用的积分将在月底到期。如果您每年支付积分，您将预先获得所有年度积分，并且可以在一年中随时需要时灵活地使用这些积分。信用的价格是 1 美元。不同之处在于您消耗的积分数量取决于您在平台上运行的活动。

例如，生成 1080p 输出视频将比生成 4K 视频消耗更少的积分。

Craig：那谁是主要用例？你们为好莱坞打造了这个。但在我看来，随着语音克隆和实时翻译的发展，各个领域对这种解决方案的需求将会越来越高。

Matt：是的，这就是我们兴奋的原因。 LipDub 很有价值，需要有一些你想要关联的新配音音频，而从历史上看，配音一直是一个非常手动、非常昂贵的过程，实际上大多数情况下只有好莱坞和广告商使用。

现在，配音正在成为一项非常负担得起、非常容易实现的任务。世界上有多少内容即将被配音。目前，世界上只有 1% 的视频内容经过配音。但同样，这是基于这样一个想法：配音一直是一项非常手动、非常昂贵的任务。如果现在每分钟配音只需几美分，那么全球互联网内容的配音比例将达到多少？我们强烈认为，任何配音的东西都应该对口型。那么回到你最初的问题，谁是用户？这是一场持续不断的对话。

YouTube市场让我非常兴奋，真的非常非常兴奋。目前有很多证据表明这一点。来自那些早期采用者、创新的《野兽先生》（MrBeast）YouTuber选择进行配音。为期两年的实验得出的统计数据表明，全球对这种内容有巨大的需求。

Craig：是的，实际上，我没有意识到MrBeast为他的视频选择 AI 配音。他配音成什么语言？

Matt：他一开始是 15 个，他会增加到 30 个。而他在人工智能音频技术出现之前就开始了他的实验。因此，最初他付钱给传统的配音工作室来做这项工作，他并没有发布他所有的绩效指标，但他发布了某些月份作为例子，并且他 50% 以上的观点是通过配音得到的。

Craig：您是否正在与他合作，或者 YouTube 是否可以将其集成到 YouTube 工作室中，以便人们只需单击按钮即可对口型配音音频。

Matt：是的，所以我们正在与MrBeast合作。而且，我们开始探索一些唇形同步的工作。我们最近还为该平台引入了许多其他主要的 YouTube 主播。这些人要么是已经配音了内容，要么只是看到了趋势，想要立即开始本地化他们的频道。因为确实如此。

相对而言，它确实代表了LipDub的成果。本地化是实现这一目标的好方法。这不是唯一的市场，但我对这个市场特别兴奋，因为我真的像世界一样相信，我们没有理由只看说我们语言的有影响力的人。

我认为人们到处都在制作有趣的内容。你只要纵观整个媒体领域，就会发现有这种需求。我现在就是一个例子，我真的很喜欢幕府将军，我认为这太棒了。鱿鱼游戏太棒了。我们现在还与一些 YouTuber 合作，他们是世界其他地区的主要影响者，他们确实有兴趣首次进军北美市场。

而且，字幕是历史上所做的方式，只是它不是很吸引人，现在突然间您就可以拥有一个 YouTube 频道，您可以在其中提供世界上每个国家的语音效果、一流的观看体验，就像是为您量身定做的一样。我对此感到非常兴奋。

同时，现在正在倾斜的市场是广告，无论是数字营销还是电视广播，都是一个非常大的市场。许多签约客户要么是广告公司，要么是他们的视频制作公司。我们刚刚做了一个电视广告，可能是我最喜欢的科技品牌。很快就会出来。我们很快就能讨论这个问题，但这确实令人兴奋。

另外，在线教育也是重要的覆盖领域，无论是针对您的员工，假设您是一家在世界各地拥有员工的跨国公司，能够与您的国际员工或销售课程的人员进行沟通进入新市场，对吗？我们现在有一些人拥有有意义的课程负担，非常成功的公司，但只在他们的地区取得成功。现在，他们将 LipDub 视为进入新市场和发展业务的一种机制。

我认为这是一种令人兴奋的发展方式。

Craig：这是双向的。有些人用英语制作内容，希望进入非英语市场，但内容数量巨大。我在中国的大部分时间都是用中文度过的，这是英语世界从未见过的。坦率地说，这就是我认为两国之间存在理解差距的原因之一，因为人们只是没有接触到中文，从您的角度来看，大部分内容、大部分市场都是将英语内容翻译成其他语言，您认为原因是什么？

Matt：确实两者都是。无论哪种方式，我都没有看到主导趋势。对于好莱坞来说，特别是他们最初的用例，他们最感兴趣的是外国英语，可能只是因为我们作为说英语的人，我们已经没有耐心了。其他市场例如德国或法国，都是靠配音成长起来的。

所以嘴唇不同步的想法是它并不理想或最佳，但至少他们是伴随着它长大的。然而我们缺乏耐心，而且当出现这个问题时我们非常适应。所以好莱坞当然对英语的外国文化感兴趣，但是当涉及到广告、在线教育、YouTube 时，我们真的看到了这一切。

查看所有主要欧洲语言：德语、法语、意大利语。看到很多印度语言，比如印地语，普通话是一大类。所以我们确实发现我们还没有看到任何一种特定的趋势突出。只是感觉每个人都想更好地与每个人沟通。

Craig：实时性如何？是否可以想象，最终您将能够同步和配音实时流媒体内容，但会有一些延迟。

Matt：是的，这当然是可以想象的。在实时工作时，通常面临的挑战是您通常会做出一些质量权衡。

但现在很多时候，随着技术的发展，旧的权衡消失了。因此，我们当然对此感兴趣，作为未来开发的未来，因为显然如果你可以实时进行，你就会开辟很多有趣的用例。到那时，它就真正成为通用翻译机中的一个重要齿轮。我可以与中国的同事交谈，并以一种我以前从未做过的方式与那个人建立联系，这一想法显然非常有趣。然后你就拥有了很多本质上是实时内容的内容。

很多广播都是现场直播的。尽管我们确实看到该平台上有一些广播用例。举个例子，现在有几家公司正在对印度所有不同的官方语言进行板球分析。但这些，是的，我认为这真的很酷。印度是一个巨大的市场。

印度就像最好的市场之一，因为有很多方言。通常，您要么必须为每种方言创建内容，要么某些方言无法获得出色的内容观看体验。因此非常看好印度的这项技术。

Craig：挑战之一不仅仅是嘴唇的张合或牙齿或舌头的位置，还有措辞，因为翻译中的某些内容可能比英语中的表达时间更长，反之亦然。你怎么处理那件事呢？

Matt：是的，这是一个很好的观点。我认为这两个是大多数人工智能音频软件的限制因素。所以首先是翻译的准确性。有些语言的翻译准确率比其他语言高得多，我认为这是一个需要解决的问题。

另一个更难解决的是。口语和俚语。但我有信心，这是翻译准确性问题的一个子集，这两件事都是真正的问题。这就是大多数人工智能音频系统中的原因，对吗？您可以进入并编辑重定向的脚本，但这需要会说该语言的人进入并为此工作，这只会使系统更难以从中获取价值，对吧？

如果为了让我将视频完美地翻译成 10 种语言，如果我需要每种目标语言的演讲者，来审查这些音频平台的翻译，这并不是说这是不可行的。这只是有点烦人和逻辑上的挑战。

因此，这肯定是当今平台和使用 AI 音频的人们所存在的一个问题，他们中的大多数人都在竭尽全力。真正做这项工作并让人们了解这些语言。您提到的另一个问题是时间，它是系统中的限制因素。如果您正在听一段音频，感觉该音频的一部分加快了速度，然后又减慢了速度。可接受的观看体验和最终完全分散您注意力的东西之间只有一线之隔。不过，解决这个问题的方法还是回到脚本编辑部分。如果你有，如果你有英语内容要翻译成西班牙语，开箱即用的西班牙语音频是 15 秒，但英语是 10 秒。

当然，你可以依靠自动减速、加速，或者你可以实际进入并调整西班牙语脚本，取出一些单词，稍微调整一下。顺便说一句，这正是好莱坞所做的。但话又说回来，这太麻烦了。

Craig：但这听起来像是可以自动化的语言和翻译。

Matt：是的，我认为这可能是一种有趣的方式。我认为可以捕捉一些原始脚本内容的迭代。这个更短，更适合您的视频，这个是逐字记录的，但太长了。我并不是说这些都是无法解决的问题。这些只是当今一些人走进平台并期望完美的限制。

AI音频软件非常神奇，但神奇并不意味着完美，神奇也不意味着不需要任何工作。

Craig：显而易见的问题是音频隐私和滥用的可能性。那么你们对此有何看法？或者您是否正在考虑在平台中内置这些控件或任何东西来监管这种滥用行为？

Matt：这是我们经常谈论的事情。我们建立这个项目是为了最终帮助世界更好地沟通，所以我们做了一些事情。我们做的一件事是，我们确保无论您是谁，只要在平台上单击一下，您实际上就有权使用 LipDub 那个人。

我们还抽查通过平台运行的所有内容。如果我们发现滥用。如果我们看到某个名人正在宣传我们知道他们没有宣传过的东西，那么您将被终身禁止使用该平台。

这些努力非常耗时，但我们认为是必要的。我认为这在很大程度上最终将取决于那些促进 AI 生成内容的人之间的良好合作，以及该内容的分发平台，有多种方法可以用元数据标记这些内容，确保任何人工智能生成的视频内容都会被贴上这样的标签。

我认为这很重要，因为就你的观点而言，确实如此。如果我们不这样做，如果每个人不开始共同努力，那么我认为所有这些新一代 AI 技术的负面影响将是真实的，可能对社会非常有害。我认为没有人愿意这样，新的能力可以完成他们永远无法想象的事情，从而赋予个人权力。

Craig：我知道，通过数字水印或在人眼不可见的像素中嵌入一些图案，以防止音频滥用。那你们正在与研究人员讨论此类解决方案吗？

Matt：这正是我所指的数字水印。我不是我们团队中真正推动这些讨论的人，因为我不是工程师，而且这种技术远远不够。如果我们希望这些数字水印是永久性的，它就非常重要。

Craig：是否有人们可以查看的用例？有使用过您的技术的好莱坞示例或 YouTube 示例吗？我猜你说的是MrBeast。

Matt：是的，老实说，现在在好莱坞，我们在 LipDub 所做的大部分工作都是他们所说的 ADR。我们的软件通常可能需要进行非常昂贵的拍摄，这就是我们今天与好莱坞合作的工作。坦率地说，该产品需要一个适合好莱坞完成这项工作的成本结构。

其他业务层面，我们的许多 YouTuber现在才刚刚起步，因此您很快就会在平台上看到他们，并且您会开始看到他们的内容弹出。然后还有广告，对吧？我们刚刚为乐事做了一个很棒的大卫·贝克汉姆的广告。我们在哪里进行了更改，在哪里进行了本地化，本地化为不同的语言。

我刚才提到，我们刚刚针对八种语言进行了三项营销活动。我们的一些客户再次代表品牌开展工作，无论是为了他们的数字营销还是电子学习工作。这些指标非常惊人。就收视率和参与率而言，但这些并不是我们必须分享的指标。

Craig：你是如何组建团队来做到这一点的？创始人是谁？起源故事是什么？你是一名律师，为何会做软件？

Matt：我也很惊讶。所以这不仅仅是你，是的，这一切都是从我以前的软件公司开始的，我们没有做人工智能工作。

在建立团队的过程中，我很快就学到了一件事，就像这个团队的第一次迭代一样。这当然不是一个质量胜过数量的游戏。有很多人是研究人员。你可以雇一个满是普通研究人员的房间，你会得到 100 个理由来解释为什么问题无法解决。而你可以聘请一位令人难以置信的研究人员，他们会给你问题的答案。在 MARZ AI 成立之后，我很快意识到这将是一个严肃的项目。如果我们要开发世界一流的产品，我们就需要世界一流的研究，事实确实如此。

在这其中，找到丹尼尔·科恩-奥(Daniel Cohen-Or). 是关键的一步。丹尼尔是世界上 SIGGRAPH 发表最多的贡献者第一。他在特拉维夫大学的实验室享誉世界。他们加快了 30 年前作为图形实验室起步的步伐，但 10 年前，他们是全球第一批开始问自己这样问题的团队之一：深度学习将如何影响图形？

从那时起，他们的实验室发布的论文和团队都在做 AI 技术研发，包括很多优秀的加拿大教授。通过成立顾问委员会方式，与全球 AI 音频领域的专家进行漫长地联系，从而找到一些真正优秀的候选人。

最终，我真的把目光投向了丹尼尔，花了八个月的时间才签下他，担任公司首席科学家。但我认为他对这个愿景感到兴奋，因为它与他实验室的工作非常一致。

另外，我还找了阿里·马达维·阿米里，担任我们的研究总监。他是北美顶尖的图形计算学校、加拿大 SFU 的助理教授。一旦我们有了这些人，你就拥有了一个研发环境，与全球范围内一些最有才华的人一起在这个领域进行研究，然后它就开始自我发展。

Craig：你们是在召集顾问委员会之前筹集资金，还是之后再筹集资金？

Matt：我们在筹集资金之前就召集了顾问委员会。然后，我们按照这些思路推出一些东西。我们绝对认为，LipDub 是一款很棒的产品。

我们认为它在世界上为我们占有一席之地，这是一个成长起点。

我认为，随着公司的发展，我们将进行大量新产品开发，一直以来，用户如何从创意的角度赋予个人权力，让他们能够访问使用过的不同视觉特效应用程序采取艺术家团队。我们的重点是让个人可以参与并发挥这种创造力。像这些事情我们当然还没有完成。

对于改变，我们有一些很酷的想法，我们正在四处寻找，但我们确实在努力保持专注，至少现在是这样。比如，研发的这个 LipDub还远远未结束，它也不会是我们推出的最后一个产品，这是肯定的。

（本文首发于钛媒体App）

对话海外AI配音产品LipDub缔造者：我没有看到中国这类AI产品的竞争对手｜钛媒体AGI

以下是Craig Smith与Matt Penousis的对话速记，由钛媒体AGI经授权编译如下：

敬原创，有钛度，得赞赏