会打游戏的盘中之脑，如何洞见智能的分界？-钛媒体官方网站

文｜追问nextquestion

从一篇刊登在Neuron杂志上的训练神经细胞学会电子游戏的文章出发，对莫拉维克悖论给出了一种解释，人类智能与人工智能之间的一些能力差异，并不只是源于基础构成之间的差异，而是实现同一种功能的方式不同。从信息处理的角度，这意味着信息的表征与处理的方式不同。

莫拉维克悖论

早在上世纪80年代，人工智能领域刚刚从持续了十几年的低谷期中恢复，尽管当时的技术成就远不及今日，但这一领域的先驱们已经敏锐地识别出一个至今仍然令人惊讶的现象：人类独有高阶认知技能，如推理和计算，所需的计算能力其实非常少，而无意识的技能和直觉反而需要极高的计算能力。

这个理念由汉斯·莫拉维克（Hans Moravec）、罗德尼·布鲁克斯（Rodney Brooks）、马文·闵斯基（Marvin Minsky）等人所阐释，被称为莫拉维克悖论。如莫拉维克所写的那样：“要让电脑如成人般地下棋是相对容易的，但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难，甚至是不可能的”。

这个悖论挑战了人们曾经的乐观估计：首先，对普通人来说，逻辑和代数有一定的学习门槛，被视为智慧和复杂的象征；其次，按照常识，简单的问题应当比复杂问题更容易解决。有了这两个前提，人们理所当然地认为，在优秀的数学机器人、棋类机器人纷纷面世的今天，机器视觉、常识推理这样的“小问题”应该被迎刃而解。但事实证明他们错了，这些问题远比人们想象中更为复杂和棘手。

接下来的几十年里，人工智能的进展一再印证了莫拉维克悖论的洞察力。即使在AlphaGo战胜了人类顶尖棋手、ChatGPT能够处理自然语言问题的今天，我们仍未能创造出一种能够在物理世界中像人类一样自由行动的具身智能。

围绕这一现象的讨论一直在继续。一个得到较多支持的观点认为，大多数机器能够实现的高级能力（逻辑、代数等），本质上是一些串行运算，而人类的基础能力，比如环境感知、身体控制等，同时涉及许多的变量，属于并行运算过程。计算机主要基于串行结构，神经元的相互作用则相当于并行运算。因此，这种矛盾的源头是结构的差异，不同的结构适合实现不同的过程。还有观点索性认为，人类所引以为傲的所谓“高级能力”，其实并没有什么高级之处，远没有十几万年演化所形成的基础能力复杂。

这些观点都有一定的道理，但只能在一定程度上解释问题。本文将由一篇刊登在Neuron杂志上的细胞实验出发，从信息处理的角度，试图对该现象给出一个更有说服力的解释。

神经细胞“学会”乓乓球游戏

2022年10月，一个来自澳大利亚研究团队在Neuron杂志发表文章，讲述该团队如何将80万个脑神经细胞放入培养皿中连接电极，训练神经细胞玩经典的街机乒乓球游戏Pong。

该项研究分别使用了人和小鼠的神经细胞，结果发现人类神经细胞的效果更好。这些培养皿中的细胞被称为第一个有感知的“盘中大脑”（Dish Brain），由生长在微电极阵列顶部的单层人类神经元组成，微电极阵列可以刺激这些脑细胞。通过微电极阵，研究人员可以将乒乓球游戏的相关信息，以及接球失败或成功后的反馈信息传递给这些神经细胞，从而实现学习过程。

实验分别测试了有反馈与无反馈的情况，在有反馈的情况下，短短五分钟时，Dish Brian就展现出学习效果，一定程度上可以根据球的位置来回移动球拍。实验的更多细节在这里不过多展开，有兴趣可以阅读原文，或者相关的解读文章。

显然，在上述实验中，神经细胞实现的是一个适应性过程，即有机体根据外部环境调整自身状态。我们没有任何理由认为培养皿中的神经细胞团产生了意识，在有目的地玩乒乓球游戏。这个实验对理解莫拉维克悖论的意义是：学会乒乓球游戏的同样也是神经元组织，与人类大脑的基础构成相同。因此我们不能只是像讨论人类智能与人工智能时那样，简单地认为莫拉维克是结构差异的结果，而是必须展开更多细节上的讨论。

现在可以问以下两个问题：当正常人类有意识地玩这个游戏时，我们实现这个游戏过程的方式，和这些培养皿实现该过程的方式是否相似？能否在未来将此实验的规模扩大，使培养皿中的细胞以这种方式学会更加复杂的技能，比如下围棋、人类语言，并最终超越人类和目前的人工智能？对这些问题的思考可以帮助我们更好地理解悖论。

从信息处理的角度看待悖论

在接下来的讨论中，我们将所有的能力，无论是代数运算、下棋，还是环境识别、身体控制，都看作信息处理过程，即接收外部和内部信息，按照特定的方式给出信息反馈。计算自然是信息处理：根据输入的内容给出符合运算规则的输出；下棋可以看作输入整个棋盘的信息，给出下一步的棋盘信息；身体控制则是大脑根据外部环境的信息与内部状态，下达身体运动的指令。

我们先从更易理解的计算问题入手。众所周知，计算机可以进行快速运算，个人计算机能以每秒100亿次操作的速度执行基本算术运算（如加法运算）。而人类的计算速度则慢得多，无论是从脉冲电流还是突触传递方面考虑，大脑每秒最多可执行大约1000次基本运算，比计算机慢1000万倍。并且生物噪声也将导致大脑的计算精度比计算机低几百万倍。

然而需要注意的是，这里提到的计算实际上是广义计算，并不能说神经元之间的相互作用能够等同于晶体管之间简单的代数运算。我们注意到，人类做数学运算，比如加减乘除的速度远远没有达到每秒1000次。即使是一个精通计算的人，要计算出十几位数的加法结果，也需要数秒时间，而且通常还需要借助草稿纸。

为什么会这样？在一些早期的看法下，神经元之间的作用方式可以简化为逻辑门（虽然这样极大地降低了它的复杂度），我们可以仿照传统计算机的结构，使用少量神经元组成和传统计算机一样的运算单元，比如加法器、乘法器等。即便考虑到生物噪声问题，通过同时使用多个计算单元并对结果取多数来提高正确率，依然可以实现快速运算。那么按照上面的估计，即便神经元传递信息的速度并不快，神经元版本计算器的运算速度也远远比人有意识地做计算要快得多。更不用说人脑大约有一千亿个神经元，可以大量同时进行这种计算。

既然如此，是否可以认为人类计算缓慢，是因为人脑的运算能力主要放在了维持生命、在自然界中生存这类原始活动，分配给计算这类新兴活动的部分少得可怜？这的确是一个原因，但并不是主要原因。按照上面的讨论，只需要占比极少的神经元就可以实现快速运算，计算的缓慢不太可能只是资源分配的问题。

我们其实可以从目前的语言模型的表现获得一些灵感：以GPT4为例，该大语言模型使用了上万块A100芯片，每块A100芯片可以每秒钟做19.5万亿次浮点运算。这些计算包括简单的加减乘除。然而，如果我们问它一个简单的计算问题，比如158964265*5966423，至少早期版本是有可能出错的。虽然在庞大用户群体的背景下，单个用户分配到的大模型算力很少，但这也无法解释大语言模型在这种简单题目上出错。

问题的关键在于语言模型的思维方式。当语言模型面对这类问题时，计算的是字符串后面应该跟什么，也就是当面对输入的内容为“1+1=”时，它将把数字“1”和运算符号“+”、“=”等全部看作字符（实际上是token），然后根据训练文本中的数据，计算这一串字符后面应该跟什么，大概率是“2”。熟悉编程的人都知道，在传统计算机中，数字和字符的存储方式不同，数字以字符形式储存时并不能直接参与计算。在语言模型中，token可以理解为矢量空间中的矢量。很明显，操作这些字符和矢量，以计算后续字符的概率的方式做计算，需要的计算量远比直接使用底层计算单元的物理特性去计算要多得多，尤其是它依赖于参数量和训练所使用的数据量。

回到最开始的观点——计算是信息处理的过程。无论是大脑还是计算机，要处理信息，就需要先表征信息。计算机的表征方式是二进制的“0”、“1”，这通过晶体管的状态来实现。而在人脑中，信息则是通过神经元的状态来表征的。以视觉为例，当光线（电磁波）打到我们的眼睛上时，并没有直接进入人的大脑进行后续处理，而是激活了视锥细胞，视锥细胞根据强度与频率产生不同的神经脉冲。信息在这里转换了形式继续传递，人脑以不同的方式表征了频率信息，并以这种方式进行后续的处理。计算也同样如此，计算式要在头脑或者计算机中进行运算，它的信息也必须先转换为少量或者大量神经元状态，或者晶体管的状态，才能参与后续的处理。

不同的表征方式对应着不同的处理方式。用字符形式表征数字，并计算字符串后续的概率，与利用底层计算单元的物理特性直接计算数字，是两种截然不同的表征与处理方式。对于语言模型，计算式的信息并未进入单个GPU中的某一计算单元进行表征与运算，而是以一种更抽象的形式进行。虽然没有足够理由认为人脑处理语言和语言模型一样，但很明显数字“1”对我们来说，也和其它字符没有太明显的差异，因而人在进行计算时，不太可能像传统计算机以及上述神经元版本的计算机那样，将计算的相关信息表征在少量神经元上，在神经元的尺度上利用连接特性直接进行计算。

这种实现方式虽然对计算本身是冗余的，但对理解何为计算来说至关重要。传统计算机底层电路的连接方式表征了计算规则，它能够高效的实现计算过程，却并不能理解什么是计算，也不理解这些规律和现实世界的对应关系。无论是人还是语言模型，都可以理解一个应用题，知道一个苹果加一个梨子等于几个水果，传统计算机需要手动编程才可以实现这一点。这非常重要，理解的本质是给出概念之间的关系，用一些概念解释一个概念，直到追溯到最朴素的直觉知识为止。要把握现实世界，就必须使用概念和概念之间的关系对世界的大量信息进行压缩。所以，我们并不会说数学家无法快速计算一个式子是不合格的，数学家的能力在于能从现实世界的关系中抽象出数学规则，也包括计算规则。

因此，如果要理解计算机以及人工智能与人类智能的差异，我们不仅要考虑基础组分——神经元与晶体管之间的差异，还要考虑功能的底层实现方式的不同。

从优化的角度，如果人类不追求理解应用题、理解环境、在现实世界生存，只追求快速实现计算过程，并以这种方式进行自然选择和训练，那么即便是神经元为基础的智能，恐怕也可以实现快速计算，至少速度能够达到最开始提到的算力估计。上述神经元版本的计算器就是一个例子。不过神经元的并行结构的确更加擅长预测下一个字符的概率，因此目前的人工神经网络主要使用GPU而非CPU。

适应性过程与意识活动

回到最开始提到的细胞实验，现在可以说，这些神经细胞玩游戏的方式和人类玩这款游戏时的方式不同。实验的培养皿中只有八十万个神经元，而小鼠也有7000万个，大多数动物都不容易学会此游戏，就连人类也需要有足够的意识才可以，年幼的婴儿无法学会。

关键依旧在于信息表征与处理方式不同。培养皿中的神经元的学习是一种适应性过程，游戏的相关信息在神经元尺度进行表征和处理，更接近人的潜意识和直觉能力，需要建立在重复训练的基础上；而人在有意识地玩游戏时，游戏的相关要素通过视觉接收，进而被识别，最终以一种抽象概念的方式存在于头脑中：我们可以意识到，这是球拍，这是球，游戏的目标是当球靠近时，移动球拍打到球。这是一系列的概念和对概念关系的阐述，通过操作这些表征在更高层面的抽象概念，人学会了游戏。

另一个例子是，我们可以用一些生物学组织解决复杂问题。比如使用细菌寻找最优路径，这些细菌的自适应活动相当于寻找到了数学上的最优解。但这里没有意识的参与，同样是一种适应性过程，细菌并不是理解并解决了复杂的数学问题。实现该过程并不代表理解了它，每个人都实现了一系列复杂的生理过程，但对生物学和医学的研究依旧在继续，我们在意识中不理解这些能力是如何实现的。大多数人类的高级能力都建立在理解之上，以游戏为例，我们首先理解游戏和游戏的规则，有游戏的各自要素的概念和概念之间的关系，藉由这种理解学会游戏。而直觉过程，诸如调节激素、识别面孔等，虽然复杂却并不需要理解。

因此，如果以实现一些功能作为人工智能的判断标准，那么恐怕这些人工智能未必需要意识，至少我们无法根据其表现出的效果判断是否有意识。

语言模型与适应性过程

本文的最后一部分讨论语言模型。虽然如前文所说，语言模型在理解应用题以及不擅长做大量计算的方面和人类很类似。但也并不能表明语言模型处理语言的方式与人类一致：一方面，人类掌握语言、学会知识不需要太多的文本训练，并且我们也无法以极高的速度接受文本信息。人脑阅读文本的上限是每分钟500个词，即便一天阅读十小时，按五十年计算也只有50亿词。与语言模型动辄几万亿token的训练量无法相比；另一方面，大模型依旧缺乏足够的逻辑推理能力，存在幻觉等问题。

同样从信息的角度思考这些问题。首先考虑传统计算机，一个中文字符在GBK编码格式下占2个字节。而如果我们储存该符号的图片，显然要比以字符形式更大，以中文字符“我”为例，为了包含所有的笔画信息，大概要81个像素。

在黑白情况下，单个像素占据1比特，即便不考虑语言种类等标识信息，单个字符的图像大概占10个字节。字符的声音则处于二者之间。我们可以说按照字符的方式储存是对语言信息的最简表征，使用图像和声音则额外借助了媒介，从储存的角度更加冗余。传统计算机可以将字符和图片以同等基础的方式进行储存，二者都有直接的表征方式。人工智能也是一样，语言模型的token作为矢量，自身并不包含该字符的图像或者声音信息。

但对人来说，接收文本信息要依靠图像（文字）、声音（语言）或者触觉（盲文），这就限制了人摄入这些信息的速度。人并没有符号感官，只有视觉、听觉、触觉等。

另一方面，我们阅读文本或者理解语义总是需要集中注意力，但单纯识别图片中的图像要素或者分辨声音类型则不太需要注意力。

一种可能性是注意力只是参与了转译工作，将依靠图像、声音以及触觉表示的文本信息转化为了更直接的，独立于这些媒介的形式，在神经元中进行表征。但考虑到人所接收到的文本信息量，依旧不能认为转译过后，人掌握文本知识的过程完全类似于语言模型。注意力也许同样参与了后续的理解过程，使得人掌握语言的方式不同于语言模型，就像人学会乒乓球游戏的方式不同于培养皿中的神经元一样。

反过来考虑，如果将文本信息转化为神经元可以直接响应的电信号，是否也可以进行适应性训练，让神经元能像文章的细胞实验一样，可以在无意识的情况下通过“直觉”掌握语言？诚然，这一假设即使实现，也无法作为“语言模型不会产生意识”的佐证，因为人的意识也有可能源于这些适应性过程。但我们能够确定，语言模型的能力可以在无意识的条件下培养，因此不能作为“是否有意识”的评判标准。这也解释了语言模型缺乏因果推理能力、存在幻觉等现象——它实现的是人的直觉能力，而人无法通过直觉直接学会语言是因为没有相应的符号感官。

长远来看，这一假设的实现或将解决未来信息爆炸的问题。人类从零到四岁接收到的图像信息量为100万亿字节，触觉和身体反馈信息恐怕会更多，这些信息都不需要意识进行处理，接近适应性过程。而语言模型训练的文本知识只有20万亿字节。如果掌握文本不需要意识，可以在潜意识中进行，也许每个人都可以很快“学会”全部的文本知识。这相当于为人增加了符号感官和符号直觉。

这种设想可以实现吗？一方面，根据感官替代理论，我们可以使用听觉皮层或者触觉皮层学会看东西，甚至可以掌握蝙蝠的回声定位、鸽子的磁场感知等人类并不具备的能力。这表明神经元足够通用，只要能够将信号进行转换，就可以获得新的感官能力。不过另一方面，文本信息比图像信息的结构更复杂，处理起来更加困难，因此也许对神经元来说，这样学会语言效果不佳。对于这些设想，就需要进一步的研究与验证了。

参考资料：

[1]https://www.cell.com/neuron/pdfExtended/S0896-6273(22)00806-6
[2]https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.126.128102
[3]http://dx.doi.org/10.1016/j.cub.2014.02.010
[4]Metin C , Frost D O .Visual responses of neurons in somatosensory cortex of hamsters with experimentally induced retinal projections to somatosensory thalamus.[J].Proceedings of the National Academy of Sciences, 1989, 86(1):357-361.DOI:10.1007/978-1-4899-0652-6_20.