2024 T-EDGE文章详情页顶部

“超人”AI简直不堪一击?研究发现:ChatGPT等大模型也不行

钛度号
这种脆弱性不仅限于围棋 AI,也可能扩展到 ChatGPT 等聊天机器人背后的大语言模型。更关键的是,这一问题很难消除。

文 | 学术头条

当前,关于“超人”人工智能(superhuman artificial intelligence)的讨论正变得愈发热烈。然而,或许只需要一点点“对抗性攻击”,那些可以轻松击败人类冠军的 AI 系统(如 AlphaGo、KataGo 等),便会变得不堪一击。

而且,这种脆弱性不仅限于围棋 AI,也可能扩展到 ChatGPT 等聊天机器人背后的大语言模型。更关键的是,这一问题很难消除。

日前,来自 FAR AI 和麻省理工学院(MIT)的研究团队在一项研究中揭示了 AI 本身的这一脆弱性。他们表示,想要构建始终优于人类智能水平的、鲁棒性很强的 AI 系统,可能比我们想象得要更加困难

相关研究论文以 “Can Go AIs be adversarially robust?” 为题,已发表在预印本网站 arXiv 上,尚未经过同行评审。

伊利诺伊大学计算机科学家 Huan Zhang 指出:“这篇论文为如何实现建立人们可以信任的、强大的真实世界 AI 智能体这一宏伟目标打了一个大大的问号。”

MIT 计算机科学家 Stephen Casper 也表示:“这项研究提供了一些迄今为止最有力的证据,证明让高级 AI 模型按照预期方式鲁棒地运行是很困难的。”

AI “围棋冠军”不堪一击

棋类游戏一直以来都是人类智力的重要考验,近年来也被作为 AI 系统智能化水平的“试金石”。在围棋中,两名玩家轮流将黑白棋子放在网格上,包围和吃掉对方的棋子。

此前,围棋 AI 系统 KataGo 因击败顶级人类棋手的能力而广受瞩目,随着人们对 AI 是否能真正超越人类智能的不断质疑,KataGo 也成为人类和一些 AI 系统不断挑战的对象。

早在 2022 年,研究团队便通过训练对抗性 AI 机器人,发现尽管这些机器人总体上不是优秀的围棋选手,但它们能够找到并利用 KataGo 的特定弱点,经常性地击败 KataGo。此外,人类也可以理解机器人的这些伎俩,并用来击败 KataGo。

这究竟是一次偶然,还是这项研究成果揭示了 KataGo 的根本弱点,进而揭示了其他看似具有超人能力的 AI 系统的根本弱点?

为了验证这一猜想研究,他们使用对抗机器人测试了围棋 AI 遭受此类攻击的三种防御方法——位置对抗性训练、迭代对抗性训练以及更改网络架构,这些方法分别针对 KataGo 的已知漏洞进行了不同层面的改进与防御。

图|围棋对抗性攻击的三种防御策略,左图:位置对抗性训练;中间:迭代对抗性训练;右图:用视觉 Transformer(ViT)替代卷积神经网络的训练(来源:论文)

第一种防御方法是 KataGo 开发人员在 2022 年攻击事件后已经部署的方法,与 KataGo 自学围棋的方法类似,他们给 KataGo 提供攻击所涉及的棋盘位置示例,让它自己下棋,来学习如何应对这些位置。他们发现,即使是这种升级版的 KataGo,对抗型机器人也能学会击败它,胜率高达 91%。

他们尝试的第二个防御策略是迭代对抗性训练,该方法模拟了一个持续的 “军备竞赛”,在对抗性训练中不断引入新的攻击和防御策略。针对对抗机器人训练一个版本的 KataGo,然后对更新后的 KataGo 训练攻击者,如此反复九次。尽管这种方法在一定程度上提升了 KataGo 的防御能力,但仍未能完全解决适应性攻击的问题,对手不断发现新的漏洞,最后一个升级的对抗性机器人在 81% 的情况下击败了 KataGo。

研究表明,这些防御方法均未能起到有效作用,对抗性机器人依然能够找到 KataGo 的漏洞,并击败它们。具体来说,位置对抗性训练的 KataGo 在面对一种 “送二收一” 的策略时表现不佳,而迭代对抗性训练的 KataGo 则容易受到 “打吃” 攻击。

考虑到 KataGo 是基于卷积神经网络(CNN)设计的计算模型,研究人员怀疑,卷积神经网络可能过于关注局部细节,而忽略了全局路径。于是,在第三种防御策略中,他们使用视觉 Transformer(ViT)替代卷积神经网络,从零开始训练了一个新的围棋 AI,在一定程度上改变了 AI 的学习模式,但仍无法完全消除循环攻击的脆弱性,在 78% 的情况下还是被击败了。

对此,最早开发出 KataGo 的纽约计算机科学家 David Wu 指出:“强大的围棋 AI 在平均表现上是超人类的,但在最糟糕的情况下并非如此。”

实现“超人”人工智能?没那么简单

这项研究揭示了顶级围棋 AI 系统在对抗性策略下的脆弱性,对整个 AI 领域的安全性和可靠性提出了新的挑战。尽管 KataGo 在平均表现上优于人类,但从它在最坏情况下表现出的缺陷可以看出,构建真正稳定的 AI 系统依然任重道远。

研究人员通过三种针对围棋对抗性攻击的防御方法增加了 KataGo 的攻击难度,然而这些措施并未完全实现防御攻击,总能被以远少于训练对抗性 AI 所需的计算量成功攻击,这些防御措施的稳定性也没有达到人类的水平。

尽管如此,研究人员发现应对固定攻击的计算量较低,说明通过对大量攻击训练,围棋 AI 系统或许可以实现完全防御。

为实现这一目标,研究团队提出了两条互补方法:一是通过开发新的攻击算法来扩大攻击语料库,降低训练攻击方所需的计算量;二是通过提高对抗训练的样本效率,使被攻击方能够从有限的对抗策略中进行泛化。

此外,除了对抗训练之外,还有其他可以提高 AI 系统稳定性的方法,例如多智能体强化学习方案可能自动发现和消除循环攻击策略,或者通过改变威胁模型使用在线或有状态防御,动态更新模型。

研究结果表明,人类在构建稳定的 AI 系统方面仍然存在重大障碍,如果在围棋 AI 这一明确且封闭的领域无法实现鲁棒性,那么在更开放的现实世界应用中实现这一目标将更加困难。为了安全构建 AI 系统,未来的先进系统必须在设计之初就具备内在的鲁棒性。

这项研究不仅在围棋 AI 领域具有重要意义,也对其他“超人”人工智能应用领域提出了系统性研究的建议,尽管防御措施可以在一定程度上提高 AI 系统的鲁棒性,但要完全消除对抗性攻击的威胁仍然非常困难。

参考资料:

https://www.nature.com/articles/d41586-024-02218-7

https://arxiv.org/abs/2406.12843

https://goattack.far.ai/

 

本文系作者 学术头条 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

AWARDS-文章详情右上

快报

更多

2024-11-24 23:03

华为Mate70系列预约购买人数已超300万

2024-11-24 22:11

中小公募的ETF发展空间越来越窄,业内人士:应将思路从当下放眼未来

2024-11-24 21:48

欧洲地中海地震中心表示,智利发生5.3级地震

2024-11-24 21:15

下周(11月25日-12月1日))市场大事预告

2024-11-24 20:39

稀交所今年前十个月交易量突破10万吨,交易额破百亿元

2024-11-24 20:38

澳大利亚放弃对传播虚假信息的社媒平台处以巨额罚款的提案

2024-11-24 20:27

年内新发基金超1000只,募资规模超1万亿元

2024-11-24 20:14

招商策略:率先在固态电池领域取得突破的企业,将成为新巨头

2024-11-24 20:09

招商策略:市场正处于大级别上行趋势的调整期中,建议年末积极建仓

2024-11-24 20:06

11月24日新闻联播速览22条

2024-11-24 19:53

场内ETF“话语权”不断上升,股票型ETF成交额占比创历史新高

2024-11-24 19:52

瑞银经济学家:楼市拐点或在2026年,销售将率先见底回升

2024-11-24 19:44

安徽六安:在市城区范围内建造、翻建、大修自住住房可以申请住房公积金贷款

2024-11-24 19:22

“固收+”产品业绩回暖,基金公司积极布局

2024-11-24 19:08

顺丰控股:H股公开发行价定为每股34.30港元

2024-11-24 18:59

2024年贺岁档电影票房突破3亿元

2024-11-24 18:46

寒潮预警升至黄色,最低气温0℃线将抵达苏皖北部至河南南部一带

2024-11-24 18:45

叶嘉莹先生逝世,享年100岁

2024-11-24 18:29

美国国债突破36万亿美元大关,再创新高

2024-11-24 18:27

ST永悦:公司实际控制人被留置并立案

扫描下载App