谁说直觉与深思不相容？基于自由能的新思路-钛媒体官方网站

人类智能的一大优势，就是可以自主地在系统一和系统二之间切换。而最近的研究尝试说明目标导向和习惯驱动这两种看似对立的行为模式，是如何在一个统一的理论框架下共同作用，从而使生物体能够高效并灵活地适应环境的。在这一框架下，人工智能或许也能熟练掌握这一诀窍。

文｜追问nextquestion

认知科学将人类及由算法驱动的智能体分为两类，一类是“按图索骥”的目标驱动，像是有地图的探险家，知道自己要去哪里；另一类则是“按部就班”的遵循习惯，像是每天按相同的路线去学校的学生。通常研究人员认为这两类行为由不同的神经机制控制。

然而近日的Nature Comunication研究发现，它们实际上可以通过同一个理论框架来解释，这就是变分贝叶斯理论。

▷Han, D., Doya, K., Li, D. et al. Synergizing habits and goals with variational Bayes. Nat Commun 15, 4461 (2024). https://doi.org/10.1038/s41467-024-48577-7

问题：同样的领域，相同的本质

在科学研究中，无论是研究动物、人类还是机器学习算法，我们经常会遇到这样一个问题：当面对新环境或挑战时，是应该依靠本能和习惯，还是应该尝试学习新的方法？这个问题看似涉及很多不同的领域，但实际上，它们都围绕着一个核心问题：如何在快速适应和保持灵活性之间找到最佳平衡。

例如，当动物面对环境变化时，它们可能会本能地做出反应，如寻找避难所或寻找食物，这些行为可能是天生的也可能是后天学来的。同样，人们在做决策时，有时会不假思索地依赖直觉（心理学家卡尼曼称之为“系统一”），而有时则需要深思熟虑（“系统二”）。而到了机器学习中，一些算法是“无模型”（model free）的，即它们不依赖于预先设定的规则，而是试图从经验中学习；而另一些“有模型”（model based）的算法则是建立在明确的规则和模型基础上的。

这些不同的情况实际上是相似的：无论是生物还是机器，它们都需要在速度（快速适应环境）和灵活性（能够处理新情况）之间找到最佳的平衡。这种平衡是所有智能体生存和成功的关键。

例如，细菌通过趋化性行为（向营养丰富区域移动的本能）快速适应环境；面对没有预设的环境时，智能体能如一个两耳不闻窗外事的小镇做题家，能够更快地达到目标。但更复杂的生物或算法可能需要更灵活的策略来面对更复杂的挑战。

在这种情况下，为了解释目标导向的学习是如何展开的，神经科学家提出了主动推理（active inference）的理论框架。该框架指出大脑总是试图通过指挥身体与环境进行互动，以减少环境预测时要面对的不确定性及意外。该理论的核心概念“自由能”（free energy）衡量了智能体对感官输入的概率预测与期望的感官输入之间的差异。主动推理的过程，就是最小化自由能的过程。

尽管“主动推理”为我们提供了一个洞见目标导向学习的窗口，但在科学界，这依然是一个有待验证的假说，尚未有充分的实证支持来证明其背后的神经机制。例如，主动推理能够解释基于目标的学习行为，即学习的行为就是最小化目标与现实的差异。但对于不需要意识介入、不依赖外部反馈的基于习惯的行为，主动推理却显得无能为力。

最近的研究尝试说明，目标导向和习惯驱动这两种看似对立的行为模式，是如何在一个统一的理论框架下共同作用，从而使生物体能够高效并灵活地适应环境的。

发现：预测编码与复杂度降低，大脑不断进行的贝叶斯推断

为了便于理解新框架，我们可以把大脑比作一个不断试验新菜品的厨师。当一个厨师在调整他的菜单时，他是在试图让菜肴更受欢迎，还是仅仅按照自己的习惯来烹饪呢？其实，他在做的是两件事：一方面，他在减少自己烹饪的菜肴与顾客口味之间的差距；另一方面，他也在不断更新和简化食客口味变化的预测模型，即他对顾客口味的预期。

这个过程可以用一个简单的例子来理解。一个只有几种菜肴的简单菜单可能因为不够灵活而无法满足所有顾客的需求。而一个可以根据顾客反馈自由调整的复杂菜单，虽然能更好地适应不同的口味，但可能因为过于复杂而难以控制，增加成本或导致味道不稳定。

科学家用数学语言描述了这一过程，定义了“潜在意图”来扩展自由能内涵。在这里，自由能不仅仅是之前提到的主动推理中的自由能，它还包括智能体的行为倾向和对观察的预测。智能体的学习行为可以视为一个连续更新的过程（马尔科夫链），以最小化下述公式中的值Zt。这一值包含预测误差（与现实的差异）和KL散度（模型复杂度）。

英国认知科学家Andy Clark指出，大脑是一个强大的预测机器，不断地对即将到来的感觉输入进行预测，并根据实际输入调整这些预测。这个过程中的预测误差就对应了上述公式的第一项。而第二项KL散度，衡量了行动前后预测的概率密度的差异，这反映了预测模型的复杂度。在习惯驱动的学习中，行动与否不会影响预测，这一项为零，即不存在模型。由此，代表模型的复杂度的KL散度将无模型和有模型的非黑即白式二分法，转换为了连续的光谱渐变。

▷a）整合习惯和目标框架的示意图。b）展示该框架在训练期间的结构。c展示该框架在行为过程中的结构。

在这个框架中，当面对新目标时，初期的学习更接近有模型的系统，就像厨师刚开业时试图优化对新顾客口味的预测。一旦这个预测模型通过不断的训练达到令人满意的程度，就可能转向更类似习惯驱动的方式，不断精炼自己的特色菜肴。

意义：让AI能够进行零次学习

人类智能的一大优势，就是能够在全新的环境中、没有样本借鉴的前提下解决各种任务。例如让画家去画从没有见过的麒麟，画家只需要知道麒麟是一种象征吉祥的神兽；而AI却需要具体的提示词，如“描绘一只中国古代神话中的麒麟，它拥有龙头、鹿角、狮眼、虎背、熊腰、蛇鳞、马蹄和牛尾，整体形象庄严而神圣，色彩以金色和红色为主，背景为祥云缭绕的仙境，展现出吉祥、和平与皇权的象征。”

第一个画出麒麟的画家，是在有了足够多绘画经验后的零样本学习；而对当前的AI来说，零样本学习仍然是具有挑战性的。而这正是该框架试图解决的问题。

在环境发生变化时，基于本文提出的整合框架构建的智能体可以自发进行切换，由基于习惯的无模型学习切换为有模型学习，从而适应环境的变化。在实验中，研究者使用了T型迷宫来测试智能体的适应能力。在这个迷宫中，智能体需要根据两边的奖励来决定走向，学习策略以获得更多的奖励。

▷T型迷宫与智能体在环境变化时的三个阶段。

在一个基于习惯的系统中，智能体可能一直遵循旧有的路径，即使奖励已经变化；而目标导向的智能体也存在问题：举个例子，如果最初迷宫左边的奖励是右边的100倍，那智能体可能需要尝试向左边走一百次，才会更新模型，再去尝试右边（具体情况取决于智能体的模型）。这无疑是一种很不经济的做法，真实世界若生物体有这样的行为，多半会被自然选择淘汰。而本文提出的框架，基于整合目标驱动和习惯框架训练出的智能体，则在灵活性和速度中找到了权衡。它最初会适应环境，选择右边；而当环境改变时（左边的奖励消失），则会重新适应选择左边。

从T型迷宫的简单实证实验，可以看到新框架符合Yann LeCun提出的世界模型。Lecun强调，世界模型具有规划未来和估计缺失观测的双重作用，应该是一个基于能量的模型。在目标导向行为的背景下，该框架将当前状态、目标和要采取的行动作为输入，并输出能量值来描述它们之间的“一致性”。可以说，智能体在T型迷宫的决策，构建并依赖于LeCun心目中的世界模型。

从极简单的T型迷宫到极复杂的大语言模型，必然还有很长的路要走。然而，根据本文描述的理论框架，我们可以看到一些重要的相似之处。例如，在训练语言模型时，我们通常只根据现有的词汇进行预测，这与训练阶段不设定具体目标的情况相似。这个框架中目标导向规划的灵活性源于其能够将任何未来的目标分解为一系列连续的步骤，仅预测接下来的观察结果。这种方法限制了目标导向意图与先验分布之间的差异，从而压缩了搜索空间，使搜索过程更加高效。这一点对于大模型也是适合的。

此外，根据框架中的KL散度项，我们可以理解预测编码中的层级结构，即为了减少模型的复杂性，会采用层次化的信息处理方法。预测编码理论还指出，大脑学习识别模式，通过忽略那些可以通过自然世界中的模式预测的信息，从而减少不必要的信息。这种信息处理策略与信息瓶颈理论相呼应，显示了如何通过使用更低维度的信息进行表征来优化认知过程。

最后，这个理论框架不仅增进了我们对健康大脑功能的理解，还为理解和治疗神经系统疾病提供了新的视角。例如，帕金森病患者往往在目标导向计划能力上存在障碍，更多依赖于习惯性行为。这可能是由于目标导向意图中存在的高不确定性。研究如何通过医疗干预或脑深部刺激（改变内部状态）以及感觉刺激（改变大脑接收的输入）来减少这种不确定性，可能为改善帕金森病患者的运动控制能力提供方法。

此外，孤独症谱系的研究也可以从这个理论框架中受益。孤独症患者常有重复行为，这可能与他们在预测编码中过度强调模型复杂性有关，这影响了他们适应变化环境时的认知行为灵活性。引入一些随机性以增加行为多样性，可能是一种潜在的干预手段。