AI科普贴：生成对抗网络（GANs）为什么这么火?-钛媒体官方网站

我相信绝大对数AI领域的关注者，都更在意的是AI何时、何地，以何种方式投入应用。要知道AI已经是一个60年的长寿学科，相比于学理上的进化和实验室中的成就，大家必然更关注AI改变生活，发生经济效用的一面。

根植于这种漫长的期待，一些AI领域内的概念获得了迅速火爆的机会。比如在2016年，一种被称为生成对抗网络（Generative Adversarial Nets）的机器学习模型就快速风靡了整个AI圈，从学术界到资本界，一时间都对这种技术充满了无尽的期待。好像没有哪个AI从业者可以绕开GANs，无论是对他五体投地还是嗤之以鼻。

（GANs从男人、女人、戴眼镜的男人，推导出戴眼镜的女人）

如此火爆的行业大讨论背后，仿佛给外界一个错觉。好像生成对抗网络技术已经十分完善，马上就可以达成AI技术的全面市场化。中外众多创业项目也开始以GANs为噱头。

但剥开GANs有点神秘的外衣之后，这种机器学习技术真的可以带给AI行业“跨进度表”式的革命吗？

什么是GANs？

生成对抗网络（Generative Adversarial Networks，GANs）这个概念，最早是在2014年的时候由蒙特利尔大学的AI学者 Ian Goodfellow提出的。在相关论文中，Ian Goodfellow阐释的算法复杂度和数理创新并不太引人注目，但其创造的算法模型在想法上绝对别具一格，尤其它在应用性上的优势令人心动。

抛开复杂的函数语言，GANs在原理本质上酷似博弈论中的二人零和博弈，即非此即彼的胜负游戏。这场游戏中甲的存在价值就是无休止的挑战、质疑和审判乙，从而迫使乙不断调整方案，尽一切可能逃出甲的刁难。

这个玩法应用在机器学习中会有非常奇妙的化学反应。

GANs对这个原理的实现方式是让两个网络相互竞争。其中一个叫做生成器网络（ Generator Network），它不断捕捉训练库中的数据，从而产生新的样本。另一个叫做判别器网络（Discriminator Network），它也根据相关数据，去判别生成器提供的数据到底是不是足够真实。

（生成对抗网络运作原理）

有个非常生动的比喻来形容GANs，那就是生成器是假币制造者，判别器是警察。警察不断质疑假币上的种种漏洞，这就迫使假币制造者不遗余力地提高造假技术，造出无限接近真实的假币——这也就是GANs的核心目的，从数据中生成全新样本。

这个极具张力的想法，事实上是在理论层面解决了机器学习技术长久以来的问题：如何促使机器学习的训练成果向着人类希望的方向前进。GANs简单粗暴地解决了这个问题，其给业界的震动之大，从它的蹿红速度中就可以得知。2015年GANs技术还名不见经传，2016年就达到了无处不在的火爆程度，甚至被专家称为“机器学习领域20年来最酷的想法”。

当然，这个想法的优势不仅仅是够酷，更重要的是它的应用空间非常巨大。

确实有点心动：GANs的应用场景

简单的生成与判别关系，在大量重复学习运算之后，可能带来的行业想象力十分巨大。其最大的亮点是，其他AI技术还在标榜稳定性、兼容性，以及与多种技术的融合程度，GANs却能直截了当地告诉你我能干什么。在醉心AI创业的世界投创圈里，这无疑是一副上好的瘾物。

那么GANs到底能干什么呢？基本原理上看，它可以通过不断的自我判别来推导出更真实、更符合训练目的的生成样本。这就给图片、视频等领域带来了极大的想象空间。综合来看，GANs至少在以下几个方向上可能提供全新的动力：

一、图像处理：目前网上流传最广的案例，就是通过GANs来生成全新图像，其在真实度和准确度上甚至超过了人工作业。

（通过GANs为花卉图片上色，拟合优度已经非常可观）

在真实工作场景中，为黑白图像上色、通过低清晰度的图片获得高清版本、复原受损图片都可以运营GANs来解决。当然这仅仅是GANs技术的低配版，目前甚至有实验证明了可以用GANs来把图片变成视频。未来如果这个技术成真，电影拍摄的成本都可以大大降低。

二、声音处理：语音合成一直都是初级AI商业化的核心领域。GANs可以在合成和恢复语音素材中提供重大助力。包括用AI合成语音、从大量杂音中恢复某条声轨，甚至模仿一个人的语速、语气和语言心理，都可以应用GANs。

三、文字生成：同样的道理，GANs在文本生成、写稿机器人等领域也由极大应用空间。AI创作文字，最大的难关在于机器没有思想和感情，无法制造出人类写作的文本张力。而这些流于字里行间的所谓张力，说不定可以通过GANs来解决。

四、信息破译与信息安全：既然GANs的目的是使某物不断趋近真实，那么生产出真实的笔记、密码吸管，甚至生物密码也都是可能的。借助GANs破译个体习惯来解锁信息，以及提前运用相关技术进行信息安全防护，未来都有可能成为大市场。这里插一句，其实每种AI算法的出现都映射着人类信息将会变得“更危险”一点，AI在信息安全上的应用，近乎于是一场与全世界赛跑的拉力赛。

五、生成个性化产物：GANs的学习方式，是根据一系列数据指标来将样本生成为可被接受的信息。那么个性化产物的制造其实也在可应用范畴中，《西部世界》里看起来接近真实人类的机器人，其实也就是按照多种社会因素来进行样本判断与生成。这类应用用GANs也可一战。

六、高精度的样本预测：GANs的更大作用，其实还在于通过模糊数据和少量信息，对某种可能性结果进行样本预测。数据越充分，算法越高超，这样的预测就会越精准。比如去年年底十分引人注目的，用AI来通过人的侧脸判断正脸，就是用GANs技术来完成。

（GANs推测人脸，孰真孰假常人已经难以分辨）

这种预测样本的应用还有很多，而推测未知永远都是人类最愿意付费的领域之一，这带给GANs的商业想象空间当然也十分充足。

说了这么多，给人的感觉好像GANs已经无所不能了。但实事求是的说，理想总是美好的，但什么时候成为现实就不一定了。

问题依旧无数：GANs目前还属于“看起来很美”

目前来看，GANs在业界中引发的疯狂的资本想象，在学界却更多激起的是讨论甚至论战。因为这个简单粗暴的机器学习解决方案看似美好，但在实际应用和反复试验中却总是存在各种问题。即使相对成熟的实验结果，也会留下诸多隐患：

一、需要数据量过大：GANs的推导，完全依赖基于大量样本数据的反复判断。这对于样本数据的数量和覆盖广度都有严苛要求。而且对运算能力的要求也比较高。在相对垂直、小众的应用领域里，GANs还是比较难以施展手脚。

二、理论指导匮乏造成的系列问题：GANs用什么标准判断、以何种理论体系来引发判断，一直以来还都缺乏支撑。准确地说，GANs是一个有充足样本和指导思想之后的解决方案，但目前解决方案有了，前提条件很多还不具备。在缺乏理论有效指导的情况下，GANs很难得出复杂的样本推导结果，而且错误率十分地高。并且进入无监督学习领域也存在着大量门槛。

三、普遍应用度不高：复杂的算法往往也代表着比较强的兼容性，而GANs目前相对简单的算法，带来的问题就是普遍应用度不高。除了在少数几个领域表现突出之外，在更多底层运算领域则后继乏力。当然，目前学界大量研究也在解决这个问题，根植于GANs思想衍生了大量深度学习模型，或许很快补完这个缺憾。

总而言之，GANs虽然很容易让人感受到它的魅力何在，但完整性和深度显然还不足。与国内一些吹捧之间更是有天壤之别。当然了，GANs的火爆也绝不仅仅是种伪风口，真正的价值，在于其可能激发的连锁反应链。

真正的价值来自脑补：GANs可能激发的连锁反应

相比于快速进入商业场景，AI体系内部对GANs的期望可能更多来自于其他方向。比如，GANs作为一个入口或者关键解决方案，影响其他AI关键领域进程的能力。

比如说迁移学习。我们知道，今天的AI的主流机器学习，更多解决的是应用能力学习的问题。但如果具体到了垂直领域，数据和样本的匮乏会导致AI无法工作。但通过GANs的生成与判断机制，可以为迁移学习能力提供一个学习能力推导的输出端。这是AI长期发展的基石。

再比如弱监督学习领域。GANs代表了一种核心想法，即是让算法内部存在超过一个模型，这些模型不再是统一目的的运算体，而是通过不同目的的运算来相互制衡，这也就让算法自我推进成为了可能。目前，基于GANs已经产生了更多多模型学习框架，这是GANs的一大功劳。

还有，在机器理解能力和异介质样本生成上，GANs都有比较突出的帮助。这些价值可能并非体现在GANs现在得出的实验结果或者已经可以提供的价值，而是在整个AI演进体系中打通了一种连锁反应，可以激发研究者和创业者的脑补能力。

简要总结一下，GANs在目前进度条上投入应用并非不可能，但绝对没有众多媒体和商业力量吹捧的那么神奇。这种技术在民间的出位，很大程度来自它的理论容易理解和实验应用能力。

但更深处，那些可能需要挑战一下脑容量的AI逻辑，或许才藏着真正的金矿。