用图像控制猴子大脑，哈佛大学是如何用算法“造梦”的？-钛媒体官方网站

《盗梦空间》剧照

文｜脑极体

还记得电影《盗梦空间》中的“造梦师”吗？

他们可以制造出多层梦境，把某种意念植入人的大脑，还能从人的梦中窃取情报。

前不久，就有人发明出了一个名叫“XDREAM”的算法，可以通过图像刺激大脑神经活动，从而控制某些特定神经元。这一次他们的对象，只是猴子。

AI造梦：还原猴子眼中的世界

5月2日，顶级学术期刊《CELL》（《细胞》）发表了一篇论文，哈佛大学的科学家把猴子的大脑与传感器和神经网络连接起来，向猴子播放AI系统生成的图像，采集并分析猴子看到不同图像时的神经元活动，并根据猴子的反应强度来实时调整和生成新的图像。

最终的实验成果显示，AI系统已经能够自动生成激活单个脑区的图像，刺激到猴子大脑的特定神经元（实验中是识别面部）。

这项研究的特别之处在于，算法生成的图像，比起对照组中的自然图像，对脑补神经元的刺激程序更好。换句话说，这些看起来像是真实世界扭曲版本的图片，可能才是猴子最兴奋的画面。

论文的第一作者卡洛斯·庞斯，在项目中时是哈佛医学院玛格丽特·利文斯通实验室的博士后研究员，现在则是圣路易斯华盛顿大学的一名教师。他表示，使用这个算法工具生成的图片时，“（猴子大脑的）细胞活跃度提高到了我们前所未见的水平。”

这个图显示了自然图像(右)和猴子神经元进化的图像(左)

被命名为XDREAM的算法，是由威尔·肖在儿童医院加布里埃尔·克赖曼实验室开发的，并得到了美国国立卫生研究院和国家科学基金会的资助，这是第一次在真实的神经元上进行测试。

它对一系列图像进行变异与重新组合，变成了一堆奇怪的东西，比如穿着外科手术服的熟人、动物房间里的漏斗……和人类梦境中奇怪的事物有点异曲同工之妙。

XDREAM生成的图片更像是神经元之间相互沟通所使用的语言，有的东西甚至根本不存在。难怪作者庞斯说，“如果细胞会做梦，那么这些可能就是细胞梦见的景象。”

GAN再立新功，绘制梦境有何难？

系统生成的图像比真实的事物更让猴子感到兴奋，这项发现能够带来哪些想象空间？

想要回答这个问题，我们可能需要再往前一步，先探寻视觉神经元的底层机理。

脑科学领域的研究者们已经通过无数神经元测试实验证明了，大脑视觉神经元会对某些图像反应更强烈，这种“不均衡响应”使我们能够在茫茫人海中被某些特定形状、颜色或轮廓所吸引，从而快速识别出那些特别的事物，比如在火车站找到熟人，高速路旁的广告牌文字等等。

但是，视觉神经元究竟是如何对这些特定事物产生反应的，至今仍然是一个谜。

以往，在研究视觉神经元偏好的研究中，人们往往会使用真实存在的图像。这就带来了两个问题：

一是只能研究那些现实世界中存在的刺激源。但实际上，人在快速眼动（REM）睡眠期间还保持着高频的脑部活动。美国威斯康辛大学麦迪逊分校的Giulio Tononi及同事记录了32个被试对象睡着时的脑电图，证明参与真实感官刺激（比如面部和语言）处理的脑区的高频活动增加了，而且只在梦境中出现这些元素时增加。

但做过梦的人都知道，梦境是很难完整回忆和复现的，也并不与现实世界完全一致。无法得知梦境的样子，就使得脑神经研究丢失了一块重要阵地。

二是令脑神经研究带有上了研究人员的主观选择，有一定的片面性。举个例子，大家都知道卷积神经网络的发展从大脑神经中得到了很多启发，也因此产生了很多模拟人类脑活动的算法，比如基于注意力的标注模型，它会关注图片中的一些重点并对其进行文字描述，比如对下面这张图片：

对图案中的特征进行有选择的提取，于是我们得到了一个带有“海上冲浪者”标签的图片。

在模型预训练时，设计人员都会根据自己的理解和大多数人类的偏好，对图片特征赋予一定的权重进行预训练，让系统优先注意到那些希望它注意到的地方。但这种选择真的万无一失吗？从科学的角度讲，我们无法肯定地回答这个问题，但以前我们也没有证据能够证明，有的大脑可能不是这么想的，有的大脑比起面孔就是更容易对文字产生兴奋。

现在有了。

深度生成对抗网络（GAN）与遗传算法的结合，开始让我们得以看到视觉神经元的真实“想法”。

研究团队将微电极阵列植入六只猴子的下颞叶皮质 (耳朵上方稍微靠后的区域)，向它展示图像，并测量猴子在观看图像时单个视觉神经元的放电率。GAN每次随机生成40个图像，其中有10张是令给定神经元或神经元群中最活跃的图像，另外30张是由遗传算法根据神经元的不同反应，对这10张图片中的元素进行重新排列组合生成的类似图像。

这样的循环测试会在1-3 小时内重复多达250代，并不断优化“XDREAM”系统的图像代码。最终才让我们看到了会对猴子大脑产生超级刺激的照片，显然，它与现实世界和人类的理解都完全不同。

单个神经元的最大化响应所合成的图像

有一些神经元响应符合人们的预期，比如说普遍认为视觉神经元喜欢“看脸”，对面部的反应最为敏感。结果证明果然如此，最后的偏好结果就进化了圆形的粉红色图像，有两个类似眼睛的黑点，看上去像一张诡异的脸。

也有令人不解的地方，比如从真实图像进化出了一些诡异的黑色小方块，墨明棋妙的颜色混合体等等，这些特别的图像到底是怎么在神经元中作用、映射、成形的，目前还不得而知。这下科学家们又有新课题可以挑战咯~

解码神经元，对人和AI有何价值？

说了这么多，可能大家还是搞不明白，研究猴子的视觉神经元偏好到底有什么用。或者说，到底能不能创造实际价值。

为了解答这个疑惑，我们就来捋捋这个实验成果的一些独到之处：

首先，这项实验的最大特点是尝试了一种新的方式，即深度神经网络，来进行脑科学实验。XDREAM可以创造任何物体，包括那些不存在的东西。这使得让神经元可以不受物理世界的限制，从头开始构建自己喜欢的图像。

这使得人类对视觉神经元的运动机制能够以一种完全不带主观偏见的方式展开，让神经元自己决定并告知研究人员，它想要什么。

另外，从这项研究中，我们可以从图像进化的过程看到大脑是如何学会抽象化真实事物的相关特征。如第一作者庞斯说：“我们看到大脑正在分析视觉场景，并由经验驱动，提取对个人重要的信息。”“大脑正在适应环境，以不可预测的方式编码具有生态意义的信息。”

因此，这项技术可以应用于大脑中任何对感官信息作出反应的神经元，如听觉神经元、海马神经元和前额叶皮层神经元。

进一步了解大脑的工作方式，一方面可以对医学、健康等领域提供有效的依据。比如帮助了解学习障碍、自闭症等相关疾病。

通过研究患者的视觉系统变化，了解他们眼中和脑海里真实的世界景象，研究那些他们会做出优先反应的事物，也能够让医护人员和家庭成员找到更有效的治疗机制。毕竟见其所见，想其所想，是达成沟通和理解的第一步。

另外，还能促使人工智能开发出与大脑一样有效、甚至更好的模型。

卷积神经网络与大脑区域的关联

2014年左右就有少数研究开始涉及神经网络与神经元的交叉研究。比如研究人员通过从人类和猕猴身上记录到的神经活动与神经网络中的人工活动相比较，最终了解了不同系统看到的图像。论文Khaligh-Razavi and Kriegeskorte (2014)使用了表征相似度分析，将37种不同的模型与人类和猴子IT进行了比较，发现更擅长目标识别的模型也能更好地匹配IT表征，而且，通过监督学习训练的深度CNN（AlexNet）是表现最好的。这为深度学习的进展打下了坚实的基础。

总体而言，机器神经网络可以算作是对为脑神经科学家建模道路的延续。脑科学贡献了路径，计算机领域贡献了算力和训练方法，以及数据。二者的结合，才让这些模型锤炼出了令人惊喜的能力。

不过，大脑的神经网络要比人工的复杂N倍。直到今天，还有一些特性是今天大多数神经网络所没有的，比如尖峰、横向连接、中央凹、可以跳过某些层的前馈连接等等。了解这些大脑细节会不会对人工智能带来突破性的影响呢？

坦率地说，没有人知道答案，因为深度神经网络并不是（也不可能是）大脑神经系统的完整复现，但这却是AI不得不走的路。

生物学家，同时也是哲学家的亚里士多德曾经这样形容图像之于大脑的意义：我们看见某些图像之所以感到快感，因为我们一边在看，一边在求知。善于摹仿，是人类的“本能”，也是AI的宿命。