左手Transformer，右手世界模型，我们距离AGI还有多远？-钛媒体官方网站

文 | 极智GeeTech

“未来的路不会比过去更笔直，更平坦，但是我并不恐惧，我眼前还闪动着道路前方野百合和野蔷薇的影子。”

自1956年达特茅斯会议提出“人工智能”这一概念以来，实现人类水平的智能一直是人工智能领域的“圣杯”。去年上半年，有主流研究者提出，大语言模型已经表现出“通用人工智能的火花”（sparks of AGI）。这似乎表明，AGI已经从哲学猜想正在变成触手可及的未来。

马斯克在今年早些时候预测，AGI可能会在2026年投入使用。DeepMind联合创始人、首席AGI科学家Shane Legg在一次访谈中认为，2028年，人类有50%的概率开发出第一个AGI。近期，OpenAI CEO Sam Altman表示，AGI将在2025年实现，通往AGI的道路已经清晰可见。

然而，业界关于AGI的观点众说纷纭，有人视为洪水猛兽，有人视为又一次技术革命，这些引发了对AGI发展路径的争论。在此背景下，人们不禁要问：我们距离实现AGI究竟还有多远？

谁会是AGI的起点？

AGI（Artificial General Intelligence），即通用人工智能，其目标是打造一个具备广泛能力的“类人智能体”，能够像人类一样在不同领域中自主学习、推理和解决问题。基本上，除了“自我意识”的生成，AGI就是人类对人工智能的终极梦想了。

一个完整的AGI需要具备三个基本特征：第一，必须能完成无限的任务，而不是只能完成人定义的有限几个任务。第二，要在场景中自主发现任务，这是通常所说的要做到“眼里有活儿”。第三，要有自主的价值来驱动，而不是被动的被数据所驱动。

同时，AGI还需要解决一些关键的技术问题，比如构建智能体的认知架构，让智能体由价值驱动，在现实世界中进行有效的行动，能够与社会环境进行互动，使智能体决策过程透明可解释，以及建立和人类之间的信任关系等。

但如果比较AGI的三个特征，就会发现大模型还不符合AGI的要求。

首先，大模型在处理任务方面的能力有限，它们只能处理文本领域的任务，无法与物理和社会环境进行互动。这意味着像ChatGPT这样的模型不能真正“理解”语言的含义，因为它们没有身体来体验物理空间。

其次，大模型也不是自主的，它们需要人类来具体定义好每一个任务，就像一只“鹦鹉”，只能模仿被训练过的话语。真正自主的智能应该类似于“乌鸦智能”，能够自主完成比现如今AI更加智能的任务，当下的人工智能系统还不具备这种潜能。

第三，虽然ChatGPT已经在不同的文本数据语料库上进行了大规模训练，包括隐含人类价值观的文本，但它并不具备理解人类价值或与人类价值保持一致的能力，即缺乏所谓的道德指南针。

但这并不妨碍科技巨头对于大模型的推崇。以OpenAI的ChatGPT、谷歌Gemini、Meta的Llama为代表的大模型，已经在通用性上展示出了AGI的潜力。因为大模型已经能完成范围相当广的各类任务，而且表现出了像学习新技能这样的“元认知”能力，科技巨头也都将大模型视为迈向AGI的关键一步。

相比大模型的“鹦鹉范式”，AGI是以“小数据，大任务”为架构的“乌鸦范式”，智能体表现为具有自主的智能，能够自主感知、认知、推理、学习和执行，不依赖于大数据，基于无标注数据进行无监督学习，并且智能系统低功耗。就像乌鸦喝水这一行为，看似简单，却属于自主推理行为，是由价值与因果驱动的高级智能，也是人工智能的未来发展趋势。

通往AGI的两大技术流派

目前，在通往AGI的道路上，主要有两个技术流派。

一个是以OpenAI为代表的Transformer学派，通过大数据、大参数、大算力，以自回归的方式走向AGI，今年初发布的Sora体现的涌现能力，就初步隐含着AGI的味道。

另一个是以Meta首席人工智能科学家Yann LeCun为代表的世界模型学派，这一学派认为自回归的Transformer是无法通往AGI。Yann LeCun认为，人类和动物能够通过观察，简单的交互，以及无监督的方式学习世界知识，这蕴含的潜在能力构成了常识的基础，这种常识能够让人类在陌生的环境下完成任务。

在人工智能的发展历程中，Transformer架构无疑是一个划时代的创新。它首次被介绍是在2017年的论文《Attention is All You Need》中，旨在解决自然语言处理任务中序列到序列转换的问题。

Transformer架构之所以能够在短时间内取得广泛应用，主要归功于其在语言理解和生成方面的显著能力。模型通过自注意力机制学习文本中的复杂依赖关系，能够生成连贯且富有逻辑性的文本，这在机器翻译、文本摘要、对话系统等应用中尤为突出。同时，Transformer的设计支持并行计算，极大提高了训练效率，这使得处理大规模数据集成为可能。

尽管Transformer架构在多个领域取得了成功，但其在理解复杂概念和常识推理方面的能力仍有限。这是因为模型主要依赖于从数据中学习模式，而非真正理解这些模式背后的逻辑和原因。这一点在尝试实现真正的AGI时尤为突出，因为AGI不仅要求在特定任务上表现出人类水平的智能，更要求能够跨领域学习和适应。

不同于Transformer架构专注数据的模式识别和序列处理，Yann LeCun围绕如何使机器能够像人类和动物那样理解和与世界互动，强调“常识”推理的重要性以及基于“世界模型”的预测和计划能力，试图通过内部模拟来预测和理解环境的动态变化，进而做出更为合理的决策。

世界模型的基本思想，源自于对人类和动物如何理解世界的观察。我们的大脑能够构建内部表示，模拟可能的未来场景，并基于这些模拟做出决策。借鉴这一机制，世界模型旨在为人工智能系统提供一个内部环境的模拟，使其能够预测外部世界的状态变化，从而在不同情境下做出适应性决策。

这个模型通过无监督的方式从未标记的数据中学习，从而无需明确指示就能理解世界动态。该模型架构由六个模块组成，包括执行控制的配置器、理解当前状态的感知模块、预测的世界模型、决策的成本模块、规划行动的行动模块，以及追踪状态和成本的短期记忆模块。

在强化学习领域，世界模型已经显示出其强大的潜力。通过在模型中模拟环境，人工智能不仅可以在虚拟环境中“想象”执行动作的后果，还能够在实际执行之前评估不同行动方案的效果，极大提高了学习效率和决策质量。此外，在自主决策系统，如自动驾驶汽车和机器人中，世界模型能够帮助系统更好地预测和应对可能的变化，提高了安全性和可靠性。

世界模型的最大优势在于其环境模拟与预测的能力，这种能力使得人工智能系统可以在进行实际操作之前，通过内部模拟来评估不同行为的后果，这在资源有限或风险较高的情境下尤为重要。世界模型还支持决策支持和规划能力的提升，允许系统在多个可能的未来中“看到”并选择最优路径。

然而，世界模型的构建和应用也面临着显著的挑战。首先，环境模拟的准确性极大地依赖于模型的复杂度和所拥有的数据质量。要精确地预测复杂环境中的动态变化，需要大量的数据和强大的计算资源，这对于资源有限的项目来说可能是一个限制。

其次，构建一个能够泛化到多种不同环境的世界模型是极具挑战性的，因为现实世界的复杂性和不可预测性远远超出了任何现有模型的处理能力。

尽管世界模型在理论上具有巨大潜力，但在实际应用中仍然存在许多未知数。例如，如何确保模型的预测准确性，如何处理模型可能的偏差，以及如何在不同的应用场景中调整模型参数以适应特定的需求等问题都需要进一步的研究和探索。

越竞争，越融合

在探索AGI的道路上，Transformer架构和世界模型代表了人工智能研究中两种截然不同的设计哲学和目标。这两种方法在理解复杂系统、处理未知环境、以及学习效率方面各有优劣，引发了关于哪一种更接近于实现AGI的热烈讨论。

前文提到，Transformer架构以自注意力机制为核心，它的设计哲学基于对数据之间关系的深入理解，特别适合处理序列化信息，如文本和语言，这使得Transformer在自然语言处理NLP等领域大放异彩。

相比之下，世界模型更侧重于模拟和预测环境的动态变化，试图通过构建内部模型来理解外部世界，从而在各种情境下做出适应性决策。这种方法类似于人类和动物如何通过内部表示来预测和规划行为，因此被认为在实现AGI方面具有潜在优势。

从理解复杂系统与处理未知环境的能力来看，Transformer架构通过分析大规模数据集来理解复杂系统，优势在于其能够捕捉深层次的模式和关系。然而，当面对未知环境或数据稀缺的情境时，它的表现可能会受限，因为Transformer依赖于已有数据中的模式进行学习。

世界模型通过模拟可能的环境状态来理解复杂系统，特别是在处理未知环境时展现出其独特的优势。通过内部模拟，它能够“想象”不同的未来情境，即使是那些从未直接经历过的。这种能力使得世界模型在策略规划和决策支持方面具有显著的潜力。

在学习效率方面，Transformer架构能够快速从大量数据中学习，尤其是在有足够计算资源的情况下。然而，这种方法可能导致资源使用效率低下，特别是在需要处理非常大的数据集时。

世界模型在学习效率方面的优势在于其能够通过少量的实际交互进行有效学习。通过在内部模型中“实验”不同的行动策略，世界模型能够在不直接与环境互动的情况下优化决策，从而降低了学习过程中对实际数据的依赖。

在追求AGI的道路上，Transformer架构和世界模型各有所长，代表了人工智能技术发展的两条不同路径。虽然每种方法都有其独特的优势和局限，但未来AGI的实现可能不会完全依赖于单一技术或方法。相反，结合这两种架构的优点，甚至探索新的技术和理论，将是实现真正智能、灵活且适应性强的AGI系统的关键。

例如，利用Transformer架构的强大语言处理能力来增强世界模型内部的环境模拟能力，或者在世界模型的框架下集成Transformer模块来提高模型对环境变化的理解深度。这种融合可能会带来新的挑战，比如如何平衡两种架构的计算需求，以及如何整合它们各自的学习机制。

除了结合现有架构，实现AGI还需要探索新的技术和理论，这包括发展新的神经网络架构、深入研究大脑和认知科学以获取灵感，或者开发能够跨领域学习和适应的算法，这些新的探索将跨越学科界限，整合来自神经科学、心理学、计算机科学等领域的知识，既是人类智慧的集大成者，同时又挑战着人类智慧的上限。

如今，我们正处在通向AGI未来的起点上，尽管实现它的时间表尚不明确，但技术道路正逐渐清晰。AGI的进步不仅代表了技术创新，更是对未来人机交互方式的重新想象。两千多年前，苏格拉底说“认识你自己”，今天在AGI技术发展的倒逼下，人类需要“重新认识你自己”。