别把人工智能当迷宫，从简单的问题开始-钛媒体官方网站

站在科技的前沿，触摸着人工智能的发展脉搏，仰望那似曾相识却又遥不可及的人类智慧，科学家们不由发问，究竟怎样的路径才能将机器的智能推向人类水平，甚至超越人类的境界？

文 | 追问nextquestion

Kisaco Research首席分析师Eitan Michael Azoff在新书Toward Human-Level Artificial Intelligence中指出，只有从简单问题出发，逐步理解大脑处理感官信息和执行认知任务的方式，才能有望解锁超越人类智力水平的人工智能。

▷Toward Human-Level Artificial Intelligence: How Neuroscience Can Inform the Pursuit of Artificial General Intelligence or General AI

01 不同水平的智能系统阶梯

人工智能的野蛮发展，让迈向人类水平的智能不再遥远。然而，研究者们在借鉴大脑工作机制和突破现有技术瓶颈的过程中，是否忘却了1972年诺贝尔物理学奖得主Leon Cooper曾经的指导，过度追求多样与繁杂，走在错误的方向？

Leon Cooper曾提出三条关键建议：

1. 不要急于解决一个复杂的难题。如果存在一个更简单的版本，而你尚未解决，那么应当先从简单的开始。

2. 不要轻信你无法理解的事物。

3. 最后，要警惕那些声称解决方案在于复杂性，从而无法看清实际情况的人。尽管在某些情况下这可能成立，但大多数时候，这只是放弃尝试的一种借口。

恰巧人脑复杂，人们也难以解释其工作原理。故而，要想构建人工智能，首先需要将任务拆解，分层理解大脑是如何编码信息的，包括信息在大脑中的传递，以执行诸如思考、学习、解决问题、整合多感官表征以及进行内部对话等认知任务。尽管有人认为这一过程过于复杂，难以理解，但请不要轻信这种看法。

Kisaco Research首席分析师Eitan Michael Azoff在新书Toward Human-Level Artificial Intelligence中，按照类似思路，将智能系统清晰的分为动物水平的，人类水平以及超越人类水平的智能系统，其中人类水平的智能进一步分为类人的，基于工程学的以及人机混合型三类。他试图打破现有系统的桎梏，简化研究路径，聚焦于核心问题的逐步解决，为实现人类水平的人工智能提供新框架。

▷图1：不同水平的智能系统阶梯。

构建人类水平的智能系统的第一种方式，是理解人脑的工作原理，并以此知识构建类似人类水平的人工智能，这一方法被称为（Human like human level AI，HL^2AI)。这种方法从神经科学中汲取灵感。我们的大脑是我们渴望构建智能机器的终极范例：人类拥有我们所知的最高形式智力。这激励了神经科学的研究，以指导构建人类水平的智能系统。

第二种方法则基于工程学的理念，包括知识工程、计算机科学和数学等领域，构建人工智能机器。书中将这种方法称为Engineering Human Level AI（engHLAI）。现代电子计算，包括存储技术、长期存储和快速数值计算，其能力远超人脑的相应功能。因此利用这些现代信息技术，能够在engHLAI中构建出强大的智能。

第三种方案是前两种方法的融合。即将类人AI与工程学方法相结合的混合策略。作者认为，这种混合方案是实现人类水平人工智能的最理想途径。该方案利用我们在人脑中发现的模式和概念，并通过工程算法对其加速。这些算法在大脑中并不存在对应的机制，但能够实现加速计算，并简化人脑中复杂的运作过程。实现这一方案的关键在于脑机接口技术的进步，这将使得对大脑进行非侵入式高精度扫描成为可能，从而为混合方案的实施提供技术保障。

该书的假设，要实现人类水平的智能，第一种方法或第三种方法比纯粹依赖工程的第二种方法更为可行。与深度神经网络代表的成功相比，认知模型的发展相对缓慢。然而，认知架构在工程化人类水平人工智能（engHLAI）模型中可能发挥关键作用。它可以通过将预构建的信息处理结构以认知架构的形式整合到engHLAI中，并结合能够学习环境和应对挑战的神经网络。这一过程类似于人类基因组中蕴含的设计蓝图，随后通过后天的经历塑造出具有不同个性的人类。

类比人类飞行的历史：人类想要模仿鸟类，于是绑上由人力或自行车动力驱动的翅膀装置，结果却以失败告终。但现在我们有了超音速喷气式飞机，几个小时就能横跨大陆，甚至能够乘坐火箭登月，这些都是任何鸟类都无法实现的壮举。在人工智能领域，类似的观点认为，工程方法能够突破进化所设定的局限，通过更为优越的手段实现强人工智能，这一前景是可能实现的。

然而，正是通过翼型气动力学原理理解鸟类飞行，人类才能首次成功飞行。从那时起，工程学的发展便逐步超越了鸟类的飞行能力。因此，我们需要开展研究来了解动物或人类大脑的工作机制。一旦掌握了类似于气动力学的基本原理，我们便能运用工程学将设计超越自然进化的限制。engHLAI 不需要受限于大脑中较慢的离子电传输，而是利用现代高速电子技术，将最先进的计算机与人类水平人工智能（HLAI）相结合。但这条研究路径始于对大脑工作机制的深入理解，从简单的动物大脑到复杂的人类大脑，或许是实现HLAI的最快途径。正如Leon Cooper的第一个原则所强调的，先解决简单的未解问题，再逐步攻克复杂难题。

一旦实现了人类水平智能体（HLAI）系统的创建，大脑的功能被完全理解，未来超越人类水平的人工智能极有可能由工程化的智能体（engHLAI）所取代。因为工程化系统可以进一步发展。构建后续的高智能体可能由智能机器来完成，那时就不再是人类发展高智能体的问题，而是智能机器开发的超越人类水平的智能，会超越我们的造物。

▷图源：Ameba Fish

02 构建人类水平智能的方法及要求

在当下的神经科学研究还不足以构建类似人类的人类水平智能时，还存在两种替代方案。一种是模仿具有智能的小型生物，这些生物的大脑中神经元数量相对较少。这种方法的目的是识别出可以扩展到模拟人类水平AI的基本原则，以构建一种动物水平的AI，这里的“动物”不包括人类。

另一种方法是构建一个使进化算法能够驱动学习的环境，通过进化最优的进化算法，使这些算法成为学习过程的一部分，并将这些最优算法将嵌入到人类水平AI的系统中。具体来说，这个过程将从模拟虚拟世界开始，在这些虚拟世界中，智能系统的基本原理通过基于动物水平AI模型的神经系统得以进化。随着时间的推移，虚拟生物群体在达尔文式自然选择的规则下迅速进化，生存和繁殖的机制将推动智能的提升。最终，经过优化的进化算法将被整合进人类水平AI系统中，提升其学习和适应能力。

Eitan Michael Azoff遵循着Leon Cooper的建议，提出先构建简单的动物水平的智能，再去想更复杂的事情。这与当前大语言模型模拟人类高级功能为前置条件的想法，形成了鲜明对比。

我们人类起源于最原始的生命形式，因此，视觉思维必然是大脑在处理语言之前的第一种思维过程。无论是内部对话还是与他人的交流，都是在视觉思维之后逐步进化而来的技能。正如William G. Ellen所言：“超过50%的大脑皮层，用于处理视觉信息。理解视觉的工作原理，可能是理解大脑整体运作机制的关键”。因此，Azoff强调，利用视觉相关任务作为当前人类水平人工智能的试金石，是实现智能突破的重要路径。

具体来看，Azoff在他的新书中，提出了一种简化的科学研究方法：即计划-执行-检查-行动（PDCA）循环。其具体步骤如下：

计划（Plan）：决定采取某些行动，无论是完成一项任务还是进行一项学习实验。这一阶段需要精心设计实验方案，明确目标和方法。
执行（Do）：按照计划实施实验或任务，确保过程的有序进行。
检查（Check）：监控、观察并分析实验结果，如有必要，暂停实验以评估进展和发现潜在问题。
行动（Act）：根据检查阶段的发现，评估实验结果并采取相应行动，无论是增加知识、进一步深化研究，还是暂时停止以调整策略。

▷图2：实现混合式人类水平AI时对应的划-执行-检查-行动（PDCA）循环。

图2展示了基于PDCA循环，实现混合AI所需的多个组成部分，分别如下：

运动和感知：赋予系统在现实世界中移动和行动的能力与感知功能。这部分包括机器人自我保护的反射系统，使其能够在动态环境中安全操作。
因果推断：在可能的情况下推断因果关系，并基于贝叶斯理论对事件序列的概率有感知，这些概率可以随着新信息的收集而更新。
大语言模型：当前用于人机通信的最先进技术。
超维度计算（hyperdimensional computing）：在语义空间中存储信息，并具备不断更新与交互的能力。
预设指令：设定系统的目的和动机：或重新编程以改变系统的行为。
神经调节：作用于激活速度较慢的神经元，能够增强某些神经元的活动，同时抑制其他神经元。神经调节可视为大脑中神经递质梯度的变化，类似于多巴胺在奖励机制中的驱动作用，表现为一种强化学习的形式。
自主行为：保护系统免受损害的必要机制，包括控制反射性运动系统。它还驱动时钟并管理 PDCA 循环的进行。
神经元的生成和移除：一种向神经网络中添加神经元的机制，同时修剪那些未发挥功能的神经元。这一过程类似于大脑中的神经可塑性，提升系统的适应性和学习能力。
非易失性存储器、存储和计算：神经网络从内部矩阵中进行读取和写入，类似于计算机中的内存（RAM）。这种机制确保了信息的持久存储和高效访问。
内部沟通：系统的左右两侧可能存在劳动分工，左侧专注于即时任务，右侧则关注长期目标（这些目标可能源自预设指令）。内部沟通有助于决策，例如左侧提出三种完成任务的可能方法，右侧则帮助筛选出最接近实现长期目标的一种。视觉思维可能是这种沟通的主要方式。

该书进一步提出，实现人类水平人工智能需满足以下几个关键标准：

内部模型。AI的大脑应具备对世界的内部模型，并运用科学方法来发现和学习其所处的环境。
类脑的分工结构。人工智能系统应模拟人脑的左右半球分工，能够进行内部对话以辅助决策。具体而言，任务可以在系统的两部分之间分配，一部分专注于处理即时任务，另一部分则负责长期规划与战略布局。
内部奖励系统。相当于神经调节剂多巴胺，用于强化学习。
扩散（Diffuse）决策机制。AI应具备扩散决策的能力，即最强的响应神经元能够汇总信息，决定下一步的行动，并影响其他神经元群体。
因果推理：AI系统需具备因果推理的能力，能够辨别事件之间的因果链条。
长期目标寻求与自主设定中间目标。旨在帮助AI在面对复杂任务时，能够分阶段、有条不紊地推进。
理解物理世界如何运作。AI系统应通过科学知识和其他相关知识的训练，深入理解物理世界的运行机制。
道德行为。AI需内化道德准则，确保其行为符合伦理标准。
持续学习，以及积累知识和建立联系的内在动力。
抽象思维。从特定案例的细节中抽象出更普遍适用的抽象概念的能力。

03 三种工程化脑的认知框架介绍

在追寻人类水平智能的征途中，作者列举了三种能够实现工程化模仿大脑的认知架构：Soar、ACT-R 和自适应共振理论（ART）。这些认知架构是自上而下的构建，设计者们认为它们捕捉了人类大脑思维过程的核心要素。

（1）Soar

Soar，源自Allen Newell关于认知统一理论的思想，是一个统一的认知架构典范。Soar的设计旨在支持多个微观理论，每一个微观理论专注于认知的一个特定方面，并将它们整合于同一个系统之中。

当 Soar 试图实现目标时，它会运用多种方法：从外部资源中进行推理和信息检索，利用程序性记忆进行逻辑推理，运用非符号化的知识进行分析，从情景记忆或语义记忆中寻找解决方案，或直接与外部世界互动。

如果在实现目标的过程中遇到瓶颈，Soar会自动生成一个子目标，将其作为当前的主要任务，继而循环这一过程，直至突破难关。这一框架不断重复，直到目标得以实现，然后回溯至子目标树中的原始目标，从而整合新的知识以促进进一步的进展。

根据模型的不同，Soar 可以使用目标手段分析来缩小问题空间的搜索范围。它通过选择一个最小化当前状态和目标状态之间差异的动作来实现这一点，这种最小化是递归进行的。显然，为了确保这一过程的有效性，系统必须具备选择正确动作以实现最小化目标的能力，并能准确检测到状态的变化。

▷图3. Soar框架中的关键组件。Soar的最新版本具有三种长期记忆形式，随着系统在解决问题方面积累经验，知识也在不断扩展和深化。来源：Laird, John E. "Introduction to SOAR." arXiv preprint arXiv:2205.03854 (2022).

在解决问题的过程中，获得的记忆会与包含当前情境特定知识的短期记忆相连接。所有任务都被表示为问题空间，长期记忆则由满足任务需求的“生产系统”构成。知识搜索涉及所有生产触发，并选择与查询最佳匹配的操作符。当相同的难题再次出现时，Soar能够迅速从长期记忆中检索相关知识，迅速应对。

（2）ACT-R

第二个认知框架自适应思维-理性（ACT-R），最初由 John Anderson和Christian Lebiere 在卡内基梅隆大学开发，该框架受到Soar的启发。

▷图4. ACT-R认知框架的示意图。来源：Ritter, Frank E., Farnaz Tehranchi, and Jacob D. Oury. "ACT‐R: A cognitive architecture for modeling cognition." Wiley Interdisciplinary Reviews: Cognitive Science 10.3 (2019): e1488.

ACT-R包含7个模块，其中的视觉，目标，检索及手部控制模块最为关键。这些模块虽然能够并行运作，但每次只能执行一个以产生相应的规则。中心模块通过应用规则协调模块间的通信，并可以访问缓冲区，通过产生规则更新其它模块。视觉、听觉和手部控制系统是 ACT-R 与环境交互的方式，例如在键盘上打字和观看计算机屏幕。

在ACT-R中，学习发生在多个位置和多种方式。其关键的学习方法是陈述性记忆强化：记忆被检索得越多，其激活强度就越高。

ACT-R 生产规则基于记忆、学习和问题解决的详细实验数据。每次运行ACT-R时，系统只专注于一个目标，通过触发相应的生产规则来改变状态。这些规则一个接一个地执行，但它们也可以嵌套和串联。例如，一个规则的输出可以成为下一个规则的输入。图 4中的中央框是系统决定下一个要执行的生产规则的地方。

匹配模块识别当前拥有最高“效用”的生产规则，这个“效用”不仅取决于规则是否能帮助实现目标，还要考虑执行该规则的成本——也就是成本效益分析。成本可能包括完成任务所需的时间，或者目标是否有时间限制。在没有外部监管的情况下，ACT-R系统会不断更新规则及其成本效益，并在每个选择周期中，挑选出最优的规则作为下一个要执行的动作。

（3）自适应共振理论（ART）

ART认知框架由Stephen Grossberg 提出，源自对大脑在无监督情况下自主纠错机制的思考。许多神经网络模型面临的一个挑战是，如果遇到新的训练材料，它们会忘记已训练的学习。这被称为稳定性-可塑性困境。模型需要在获取新信息的同时，稳固地记住所学知识。尽管当前的大型语言模型在一定程度上通过微调和增强新信息来缓解这一问题，但“灾难性遗忘”依然是许多神经网络设计中普遍存在的问题，它的存在使得当前的AI应用范围狭窄。ART的设计初衷便是能够快速且稳定地学习，避免灾难性遗忘的发生。

▷图5. 自适应共振理论（ART）网络的结构。

ART模型使用无监督算法对输入模式进行聚类。识别类别的学习泛化性由一个称为警觉性的参数决定。高警觉性意味着系统更倾向于学习具体和特定的类别，而低警觉性则促使系统学习更一般和抽象的类别。如果新的输入模式不适用于现有聚类时，ART会选择一个新的类别来学习该模式。这一过程在需要时会自动分配一个空闲的输出神经元来表示新类别，确保系统能够灵活应对各种新信息的涌入。当所有输出（类别）神经元都用完时，学习输入模式停止，但由于 ART 可以与任意数量的类别神经元一起工作，这种可能性很容易避免。

警觉机制的引入，使得ART能够以最大的泛化能力进行学习，以最小化预测错误。ART 通过匹配跟踪的过程来完成这一点，其中预测不匹配通过最小的量增加警觉，以纠正预测错误，从而放弃最小的类别泛化量来完成对新出现类别的跟踪匹配。这一机制类似于大脑中由乙酰胆碱介导的分类学习过程。

在工程实现上，ART框架的输入数据模式表示为向量。基本单元包括一个输入层（层1）和一个输出层（层2）。层1包含对输入模式进行特征检测的网络活动模式，而层2则通过自适应权重连接至层1。层 1 的活动模式比较或匹配自下而上的输入模式（也称为自适应滤波器）与层 2 的自上而下输出模式（也称为学习自上而下期望）。层2中的竞争网络选择响应最强的神经元群体，实行“胜者全得”的竞争机制。这种机制确保了系统能够选择最合适的类别来匹配当前输入，从而实现高效的学习和分类。

关于ART框架，该框架的提出者于2021年出版有Conscious Mind Resonant Brain: How Each Brain Makes a Mind一书进行了详述。现有的心理学和神经科学证据也支持了ART理论的预测，感兴趣的读者可以进一步阅读这本书，以获得更全面的理解。

04 总结

在人类对智能的探索中，我们仰望星空，思索着如何跨越自身的界限。或许，正如Eitan Michael Azoff所建议的，从最简单的起点出发，理解简单动物的大脑运作，更可能帮助我们先达到动物水平人工智能。当我们凝视那些仿佛遥不可及的目标时，回顾下飞行器的发展。鸟儿启发了人类飞翔，但最终我们却借助动力学和工程化，超越自然进化的限制，乘着超音速的翅膀翱翔天际。未来的人工智能，或许也将以我们未曾预料的方式超越人类的智慧。

在这个不断演进的时代，智能的边界正在被重新定义。当我们试图赋予机器以思想，它们也在引领我们走向新的认知高峰。或许，人类智能与人工智能，将在不远的将来，彼此映照，彼此成就，在未知的宇宙中探寻更深的答案。

参考文献

[1] Toward Human-Level Artificial Intelligence: How Neuroscience Can Inform the Pursuit of Artificial General Intelligence or General AI

[2] Hagen, S. (2012). The mind’s eye. Rochester Review, 74: 4.

[3] https://en.wikipedia.org/wiki/Soar_%28cognitive_architecture%29#tdsub

[4] https://en.wikipedia.org/wiki/Adaptive_resonance_theory#tdsub