伯克利BAIR Mark Nitzberg ：可靠性问题仍是制约生成式AI发展的主要障碍

12月7日，在北京市大兴区举办的2024T-EDGE创新大会暨钛媒体财经年会上，暗物智能DMAI前美国CEO、蓝色光标前美国总裁符海京和哈佛大学博士、加州大学伯克利分校人工智能实验室执行董事、Dark Matter AI联合创始人、微软/亚马逊顾问 Mark Nitzberg 展开了一场深入对谈，探讨生成式AI的潜力、困境与未来。

在Mark Nitzberg 看来，尽管生成式AI在许多任务中展现了显著的效率提升——例如回答复杂问题、生成高质量内容等——但这项技术仍处于实验阶段，可靠性问题成了制约其进一步发展的主要障碍。“当前的模型在性能上的确进步巨大，但我们无法忽视它们在关键场景中的不一致性。例如，一个细微的输入变化可能导致模型输出答案出现巨大偏差，而这种不确定性是无法在医疗、交通等高风险领域被接受的。”

与此同时，Mark Nitzberg 特别提到生成式AI在许多新兴领域中展现了指数级的效率提升。例如，他分享了瑞典对多个行业进行的分析研究，其中“建筑修复”这一领域因生成式AI的应用效率比传统方法提升了约100倍。

不过他也保持了理性态度。Mark Nitzberg 提醒道：“虽然这些效率提升令人兴奋，但它们的可持续性依然取决于我们能否攻克技术可靠性的问题。”

Mark Nitzberg 特别强调，如果我们将生成式AI引入我们所做的每一个领域，就需要确保我们对没有它时的操作方式有清晰的理解。只有这样，当我们引入AI并使其更高效、更快速地运行时，我们才不会将之前手动操作中的“问题部分”也自动化。

此外，Mark Nitzberg认为生成式AI向智能体的转变潜力巨大，但同时也伴随着复杂的技术挑战和安全隐患，可靠性和控制机制是未来发展的重要研究方向。对于未来的研究重点，Mark Nitzberg表示将集中在两个方面：一是多模态数据的整合，二是因果推理的增强。

以下为符海京和Mark Nitzberg对话实录，略经钛媒体App编辑：

中美都尚处于生成式AI的“实验时代”

符海京：欢迎来到2024年T Edge大会。由于特殊情况，今天的特邀嘉宾无法亲自到场与大家面对面交流，所以我们特别安排了连线对话。让我们聊聊你的实验室，以及AI领域有什么新的动态？

Mark Nitzberg：美国加州大学伯克利分校是全球顶尖的高等教育机构之一，同时也是一个非常优秀的AI实验室所在地。这个实验室很有趣，因为它是一个公共的AI实验室。我们有70位教授，还有超过400名博士生，其中许多是中国籍学生，以及成千上万的本科生。

AI已经以某种方式融入了人类生活的方方面面。但我们实际上仍处于生成式AI的实验时代，这一切才刚刚开始。

AI的基础是数字计算基础设施，而这种基础设施几乎已经介入了人类的每一项活动。这背后是全球互联网。几年前的数据表明，人类每年创造的数字数据量达到120泽字节（zettabytes）。这是一个非常庞大的数字，相当于1200亿TB，而你手中的设备可能只有1TB的存储空间。

互联网可以说是人类最大的技术创造，连接了我们所有人以及无数设备。这些数据的生成为AI的突破奠定了基础。这些数据的生成，以及提供服务的公司高度集中化，构建了数据、网络和处理能力的基础设施。这些基础设施使得神经网络的发明成为可能，因为训练神经网络需要大量的数据。

随后，大的技术突破是嵌入技术（embeddings）和transformers架构，它们催生了大型语言模型（LLMs），这一切始于2017年。因此，生成式AI的影响力源于我们生活在一个拥有超强传感器、高度连接的设备和高度集中的数字服务的世界。这一切构成了生成式AI的基础。

符海京：我想大家可能会好奇，生成式AI如何在不同的地理区域和不同行业中产生影响？

Mark Nitzberg：生成式AI的出现有一些值得理解的关键点。如果你要构建一个控制像水电大坝这样强大系统的计算系统，就需要应用典型的工程方法来限制其行为。比如，你需要设定运行速度的上限，或者确保它不会超过某些阈值。

这是一个令人兴奋的前景——我们可以使用看似“智能”的语言模型来控制水电大坝。然而，这些变换器模型的本质是一个巨大的电路板，就像一个混音面板，但这个混音面板有数万亿个旋钮。每个旋钮在训练过程中都会被调整。你输入一些数据，如果输出结果不符合预期，就调整旋钮。这个过程重复上百万亿次，最终你会得到一个所有旋钮都调整好的电路板，这就是我们现在使用的语言模型，比如GPT-4等。

这些商业模型有几个共同点。首先，它们非常强大，能够完成许多令人惊讶的任务，比如回答各种复杂问题、生成图像等，它们在广泛的应用领域中表现出色。

然而，它们也有一个共同的问题，那就是不可靠。也就是说，你不能指望一个语言模型去回答医疗问题。虽然我们可以在它们外面构建一个所谓的“安全层”，但实际上很难对这些模型的行为提供任何形式的保证。这也在一定程度上限制了它们的应用范围。

我们目前仍然处于生成式AI的实验时代。无论是在美国、中国，还是世界其他地方。初步的结果表明，许多任务可以通过生成式AI显著加速，并带来更高质量的成果。结果的提升取决于用户的经验水平。例如，管理咨询行业的效率可以提高15%到50%，而在编程领域，有些开发者报告称他们的效率翻倍。

更有趣的是，我们看到一些新任务的效率提升可能是“指数级”的，比如在某些特定领域，效率可能提升100倍。例如，我最近了解到，瑞典对其经济各个行业进行了全面研究，发现生成式AI在“建筑修复”这一领域的效率提升最为显著。这是一个你可能不会想到会有巨大影响的领域，但确实如此。

不过，这些预测需要谨慎对待，因为我们还不知道是否能够解决生成式AI的可靠性问题。

符海京：这背后的关键是什么？作为一名科学家、实践者和教育者，你认为这个转型成功的最重要因素是什么？

Mark Nitzberg：我认为，任何重大自动化技术的共同主题是：它必须适合其用途。如果我们将生成式AI引入我们所做的每一个领域，就需要确保我们对没有它时的操作方式有清晰的理解。这样，当我们引入AI并使其更高效、更快速地运行时，我们不会将之前手动操作中的“问题部分”也自动化。

因此，我们在研究中心特别关注那些可能会失败的系统，并设计它们时确保：如果发生故障，我们能够追踪到问题的来源，然后进行修正，避免未来再次出现类似的故障。这种设计理念是任何工程系统中都应具备的，例如飞机、核电站或大型水电大坝。然而，目前生成式AI才刚刚开始让我们初步理解它是如何运行的。

创业者应在细分行业中探索

符海京：数据是生成式AI的”汽油”，巨型企业比如美国的significant seven和中国的百度具有竞争优势，创业者应该如何在这场转型竞赛中取胜？

Mark Nitzberg：数字化工具正在为下一代提供应用AI的基础，而这个领域的应用仍然是“广阔未定”的。创业者可以在各个行业中探索如何应用这些工具。

例如，我们正在与加州大学旧金山分校（UCSF）医疗中心合作，开发一种变换器模型的变体。与传统的语言模型训练文本不同，我们的模型是基于患者治疗的临床步骤进行训练的。训练数据包括数百万个序列，例如患者首次出现症状、进行的测试、可能开出的药物、后续检查等。这种训练方法产生了一种完全不同的变换器系统，它更加“可解释”。比如，当模型建议进行胸部扫描时，你可以理解它这样建议的原因可能是因为发现了肺部问题。这是一种新的方向，其核心仍然是“适合用途”。

智能体更加考验可靠性和安全性

符海京：我想谈谈AI的“推理”reasoning能力。我会分享微软今天在Yahoo Finance上的最新声明。他们提到自动化代理（automation agents），并使用了“AI可以更好地推理”的说法，同时也提到它们能够以更复杂的方式感知环境。之前我们在暗物智能 DMAI致力于认知AI的层次架构（cognitive AI framework），你对微软今天的声明怎么看呢？

Mark Nitzberg：这是一个非常有趣的方向，也是生成式AI未来发展的关键领域之一。微软提到的实际上是AI从工具型系统向更高级智能体（agent）转变的标志。这意味着AI不仅能够处理输入和输出，还可以在复杂环境中感知、推理并采取行动。

但这里需要注意的是，所谓的“推理”并不是传统意义上的逻辑推理，而是基于大量数据的统计相关性和模式识别。换句话说，当前的AI在某种程度上模拟了人类的推理过程，但它并不真正“理解”所做的事情。这种能力的提升更多依赖于模型的复杂性和训练数据的质量。

此外，环境感知的复杂性也提出了新的挑战。AI需要处理多模态数据（例如文本、图像、声音等），并在动态环境中实时做出响应。微软的声明表明，他们的目标是将AI从静态的生成工具转变为动态的智能体，能够感知环境、推理因果关系并做出自主决策。

然而，这种转变也带来了更多的问题，尤其是关于可靠性和安全性的问题。一个能够自主感知和推理的系统，如果没有明确的限制和控制机制，可能会带来意想不到的后果。因此，我们需要在开发这些系统时，确保它们的行为是可预测的，并且能够在失败时追踪问题来源并进行修正。

符海京：你提到的可靠性和控制机制确实是一个关键问题。那么，你认为在这一领域，接下来的研究重点应该是什么？

Mark Nitzberg：我认为接下来的研究重点应该集中在两个方面：一是多模态数据的整合，二是因果推理的增强。

在多模态数据整合方面，我们需要开发更强大的模型，能够同时处理和理解来自不同来源的数据。例如，一个智能体可能需要同时处理摄像头捕获的视觉数据、麦克风捕获的音频数据以及用户输入的文本指令。这需要模型具有更高的灵活性和适应性，同时也需要更高效的计算资源。

在因果推理方面，我们需要让AI不仅仅停留在相关性分析上，而是能够真正理解因果关系。这对于复杂环境中的决策至关重要。例如，在医疗诊断中，AI需要知道某种治疗方法为什么有效，而不仅仅是基于历史数据的模式预测。这种因果推理能力的提升将使AI在关键领域（如医疗、自动驾驶和金融）中更具实用性和可靠性。

总的来说，AI的未来在于从“工具”向“智能体”转变，但这一转变需要我们在技术、伦理和政策层面上进行全面的探索和协调。

符海京：这意味着AI可以执行更复杂的一系列任务。你是否乐观地认为这真的在发生，还是说它依然是一个不可预测的“黑箱”？在推理方面，Satya Nadella（微软 CEO）提到，直到最近，语言模型的行为中确实存在一个很大的“缺口”。它会给出一些荒谬的建议，无法正确地进行推理。比如，如果你告诉它“海伦是大卫的母亲”，它无法推理出“大卫是海伦的儿子”。在这方面，它的推理能力并不完善。不过，经过显著的训练、架构上的调整和优化，它的表现确实有了很大的提升。

Mark Nitzberg：然而，我们仍然不知道这种提升的极限在哪里。同样，也没有任何可靠的保证。所以我认为，微软所谈论的是让这些系统在某些特定任务中达到一个实用的可靠性水平——而这些任务以前是无法实现的。但我不确定是否可以对这些系统在高关键性任务中使用下注。因为即便是一个小小的请求变化，也可能导致答案产生巨大的差异，这种不确定性使它们的可靠性受到质疑。

因此，目前仍然存在争议。微软声称这些技术即将解决我们所有的问题，这是有一定道理的，但我们也有理由保持谨慎。我认为，测试方法和评估机制在这方面很有帮助。我们可以尽可能地进行详尽的测试，但即便如此，这些系统仍然只是充满潜力，结果如何还有待观察。（本文首发于钛媒体APP，作者｜蔡鹏程，编辑｜刘洋雪）

更多嘉宾精彩分享，点击进入2024T-EDGE创新大会官网查看（https://www.tmtpost.com/event/dzb/tedge2024）