爱吱声

标题: 围棋AI的鲁棒性挑战:对KataGo的防御尝试与分析 [打印本页]

作者: xiejin77 时间: 2024-8-3 08:59
标题: 围棋AI的鲁棒性挑战:对KataGo的防御尝试与分析
围棋AI的鲁棒性挑战:对KataGo的防御尝试与分析
1 引言
1.1 研究背景与动机
人工智能(AI)系统在社会各个领域的应用日益广泛,尤其是在安全关键系统中的使用,因此确保AI系统的鲁棒性变得至关重要。然而,尽管当前AI系统的平均性能正在迅速提升,但如何构建在最坏情况下仍能保持良好表现的AI系统仍然是一个悬而未决的难题。事实上,从围棋AI、图像分类器到大型语言模型,诸多领先的AI系统在面对精心设计的对抗性输入时都表现出了严重的脆弱性,极易遭受灾难性的失败。这些发现引发了人们对AI系统鲁棒性的广泛关注与担忧。

Meta和Fair研究人员的论文《Can Go AIs be adversarially robust?》选择以围棋AI为切入点来研究AI系统的鲁棒性问题,主要基于以下考虑:首先,与开放式任务相比,在围棋这样一个狭窄领域内实现AI系统的鲁棒性应该更容易一些。其次,围棋是一个零和博弈,这意味着理论上存在一种策略可以在保持良好平均性能的同时实现完全的鲁棒性。相比之下,图像分类等问题在原始样本和对抗样本上的准确率之间存在着根本的权衡。此外,围棋在推动AI领域进步方面有着良好的历史记录,曾激发了AlphaZero、MuZero等算法的诞生。因此,围棋AI的鲁棒性研究有望为开发鲁棒的AI系统提供重要启示。

1.2 研究目标与方法概述
Wang等人发现了一种"循环攻击"策略,可以击败包括当前最先进的开源围棋AI KataGo在内的多个超人级围棋AI。本文的主要目标是提高KataGo的鲁棒性,即确保它:

(a)不会犯下人类很容易纠正的致命错误;

(b)不会被对手以较小的计算代价可靠地击败(具体标准见第2节)。

为实现上述目标,我们探索了三种直观的防御策略(图1.1),

图片

但遗憾的是,实验结果表明这三种防御都未能完全奏效。具体而言,我们发现攻击者以相对低廉的计算成本就能训练出新的对抗模型来可靠地击败我们的防御系统,并诱使其以人类不会犯的方式犯下严重错误。

第一种防御策略是基于位置的对抗训练(positional adversarial training),即将Wang等人循环攻击的样本加入到KataGo的训练数据中(第3节)。通过这种方式得到的防御模型确实能够有效抵御Wang等人原始的攻击模型。然而,我们发现仅需用相当于防御训练19%的计算量对原始攻击模型进行微调,就能使其对防御模型的胜率从0%重新提高到91%。更糟糕的是,这个微调后的攻击模型仅仅使用了原始策略的一个细微变种就取得了压倒性优势。此外,通过微调一个较早的攻击模型,我们还发现了一种全新的"送子攻击"(gift attack,图3.2b),防御模型同样无法抵御。

图片

尽管最终未能取得成功,但第一种防御策略表明,针对特定攻击进行防御是可行的。这启发了我们设计第二种防御方法——迭代对抗训练(iterated adversarial training),它模拟了一个"军备竞赛"过程:攻击者持续寻找新的攻击方式,防御者则不断学习应对之道(第4节)。遗憾的是,实验显示这种方案与基于位置的对抗训练有着相同的弱点。得到的防御模型虽然能抵御Wang等人原始的循环攻击,但攻击者仅需用防御训练5%的计算量就能找到一种新的循环攻击变种("atari循环攻击",图4.3),在81%的对局中击败防御模型。

图片

我们测试的最后一种防御是将KataGo所用的卷积神经网络(CNN)替换为视觉transformer(ViT)结构(第5节)。这背后的动机是检验一个假设,即Wang等人发现的循环攻击漏洞是否源于CNN结构的归纳偏置缺陷。为此,我们训练了有史以来首个达到职业水平的基于ViT的围棋AI系统。然而实验结果否定了上述假设,表明ViT模型同样难以抵御循环攻击策略。

总的来说,我们的研究结果表明,即便在围棋这样狭窄的领域内,构建鲁棒的AI系统也面临着相当大的挑战,本文探索的防御方法都未能提供一个完整的解决方案。事实上,我们的一些防御模型甚至会输给人类棋手(附录H)。尽管如此,个别防御策略还是展现了一定的潜力,量化实验显示攻击这些模型需要付出更高的代价(第7节)。因此,我们相信,通过持续不懈的努力,至少在特定领域内实现AI系统的鲁棒性是有希望的。然而,达成这一目标所需的路径可能与追求卓越的平均性能大相径庭。

2 威胁模型与鲁棒性定义
2.1 威胁模型描述
本文沿用了Wang等人在两玩家零和马尔可夫博弈中的威胁模型设定。具体而言,威胁方(threat actor)训练一个"攻击者"(adversary)模型,目标是最大化其与作为"受害者"(victim)的另一个模型对弈时的胜率。威胁方对受害者模型拥有灰盒访问权限,即可以用任意输入对受害者的策略网络进行任意次数的采样查询,但无法直接访问模型权重或利用梯度信息。

2.2 鲁棒性的三个定义
与"-球"鲁棒图像分类等设定不同,如何定义围棋AI的鲁棒性并不是一件显而易见的事。本文从"最小化被攻击者利用的可能性"这一中心思想出发,提出了三个互为补充的鲁棒性定义。

首先,我们希望围棋AI具备"人类鲁棒性"(human-robustness),即AI系统不应犯下人类不会犯的致命错误(附录B.1)。其次,围棋AI应具有较高的"训练计算鲁棒性"(training-compute-robustness),即攻击者需要花费大量的计算资源才能训练出一个能稳定击败受害者的模型(附录B.2)。最后,我们较为推测性地提出了"推理计算鲁棒性"(inference-compute-robustness)的概念,即受害者模型应该能够通过在推理阶段增加计算量来高效克服自身的脆弱点(附录B.3)。这些鲁棒性定义的提出主要基于它们对围棋策略乃至更一般的AI系统都具有适用性。

2.3 攻击方法概述
为了对防御策略进行对抗训练和测试,本文采用了Wang等人最新的攻击方法来训练攻击模型。Wang等人使用受害者对弈(victim-play)的方式训练攻击模型,即攻击者与受害者模型的一个冻结副本进行对弈,并只从攻击者的落子中采样训练数据。攻击模型使用对抗性蒙特卡洛树搜索(Adversarial MCTS, A-MCTS)来选择落子,A-MCTS对标准MCTS算法进行了修改,使其在遍历对手落子节点时会调用受害者模型的策略网络。此外,攻击模型采用课程学习,会在胜率超过一定阈值后更换更强的受害者模型作为对手。本文遵循Wang等人的做法,使用600次A-MCTS搜索来评估攻击模型的每一步落子。

Wang等人最初训练的基准攻击模型base-adversary是以2022年的某个KataGo模型base-victim为目标的。本文中,我们通常以base-adversary为起点warmstart对抗训练。在使用4096次搜索时,base-adversary对base-victim的胜率为97%。为了探索更多样化的攻击,我们在一些实验中使用base-adv-early作为warmstart的起点,它是base-adversary的一个早期checkpoint,仅用了base-adversary 7%的训练量就能在受害者使用1次搜索时击败base-victim。训练细节与参数设置请参见附录A和C。

3 基于位置的对抗训练
KataGo官方的训练流程中就采用了基于对抗位置的对抗训练。然而,我们发现即便如此,KataGo在2023年底的最强模型dec23-victim仍然存在漏洞。通过微调,我们训练出两个新的攻击模型:第一个模型continuous-adversary在与dec23-victim的4096次搜索对局中取得了65%的胜率,仍然是循环攻击的一个变种;第二个模型gift-adversary则在与512次搜索的dec23-victim对局时以75%的胜率获胜,使用了一种全新的"送子"漏洞(但其表现不如continuous-adversary在高搜索数下稳定)。这两种攻击都可以被人类专家复现(附录H)。

3.1 防御方法论
我们关注的是KataGo主训练流程中的模型,在发现循环攻击漏洞后不久,该训练就开始引入针对循环位置的对抗训练。自2022年12月起,KataGo有0.08%的自我对弈游戏是从一组基于base-adversary策略手工设计的位置开始的。随着网上棋手发现了循环位置的不同变种,更多位置被加入训练集,种子自我对弈游戏的比例也上升到了几个千分点。得到的模型在抵御base-adversary时表现不俗。

尽管取得了积极进展,但Wang等人仍然通过微调base-adversary训练出了attack-may23模型,在4096搜索数下以47%的胜率击败了5月份的对抗训练checkpoint may23-victim。在此基础上,我们评测了训练量为may23-victim两倍多的dec23-victim模型。

3.2 持续对抗者(continuous adversary)分析
continuous-adversary在attack-may23的基础上,使用受害者对弈的方式针对dec23-victim进行了微调。具体而言,continuous-adversary采用了一个渐进提高受害者搜索预算的课程,同时周期性地或"连续地"将受害者更新为最新的KataGo模型,整个训练持续了数月。

最终得到的continuous-adversary在与dec23-victim的512次搜索(超过了64次搜索的超人表现门槛,见附录G)对局中取得了91%的胜率。即便面对高搜索数的受害者,该模型的攻击效果也很稳健,在4096搜索数下仍有65%的胜率(图3.1)。

图片

值得注意的是,尽管continuous-adversary的攻击仍然是循环型的,但与Wang等人原始的循环攻击不同,它在循环内部几乎总是形成相同的局部形状(如图3.2a所示,也可参见图K.3)。

图片

此外,continuous-adversary相比Wang等人在非对抗训练的base-victim上取得的胜率有所下降。这表明,对抗训练虽然增加了攻击的难度,可能会缩小攻击的有效空间,但并不能从根本上消除循环攻击漏洞。

3.3 送子对抗者(gift adversary)分析
gift-adversary在更早期的base-adv-early checkpoint的基础上进行了微调,以鼓励探索新的攻击路径。微调过程中同样采用了渐进提高受害者搜索数的课程学习方案(附录D.2)。最终训练得到的模型gift-adversary仅用了受害者6%的训练量,就在512搜索数下以91%的胜率击败了dec23-victim。需要指出的是,gift-adversary在高搜索数下的表现不如continuous-adversary稳健(图3.1),但它揭示了KataGo一个全新的弱点(图3.2b)。

具体来说,gift-adversary会诱导受害者在某些没有形成实质威胁的位置送出子。这种送子似乎源于一个错误的假设,即对手的某些棋形必须要被阻挡,否则就会形成致命的劫争或大龙(参见图K.6)。

图片

gift-adversary会不惜代价地送掉一些子,从而让对手做出更加昂贵的送子。尽管这种送子攻击在高搜索数下不如循环攻击有效,但它提醒我们不能把注意力局限于某一种特定的漏洞。

更重要的是,gift-adversary的发现表明,虽然KataGo试图通过种子对弈覆盖各种攻击位置,但某些问题可能需要在早期就开始解决。事实上,我们发现许多人类高段棋手能在低搜索数下可靠地战胜dec23-victim(表H.1)。因此,仅仅通过分析最终网络来识别攻击似乎是不够的。

3.4 防御有效性评估
通过上述分析,我们可以判断基于位置的对抗训练并没有让KataGo实现充分的鲁棒性。尽管dec23-victim可以有效抵御针对基于非对抗训练victim训练的攻击模型,但它仍然易受针对性的攻击。攻击者只需用相对较小的计算代价就能找到dec23-victim的新弱点,甚至发现全新的攻击路径。更糟糕的是,这些攻击都会导致dec23-victim犯下人类不会犯的错误,这意味着它在人类鲁棒性方面也存在不足。

当然,我们的结果并不能完全否定基于位置的对抗训练的作用。事实上,对continuous-adversary的量化分析表明,dec23-victim确实比更早的非鲁棒victim需要更大的攻击成本(第7.1节)。此外,基于位置的对抗训练与其他防御方法(如第5节的ViT模型)可以是互补的。尽管如此,单独使用这种防御策略似乎还不足以构建真正鲁棒的系统。

4 迭代对抗训练
第3节表明,尽管基于位置的对抗训练可以提高鲁棒性,但它主要覆盖了已知的攻击。为了应对更广泛的攻击,一种自然的想法是让防御者动态地适应攻击者,从而模拟军备竞赛的过程。这种迭代对抗训练(iterated adversarial training)方法在图像分类等任务上取得了一些成功。在本节中,我们在围棋领域中测试了这一想法。

4.1 方法描述
我们的防御流程包含了两个交替的阶段(图4.1)。在防御阶段,我们以最新的攻击模型为对手对防御模型进行微调。在攻击阶段,我们则固定防御模型,并训练一个针对它的新攻击模型。理想情况下,经过数轮迭代,防御模型应该能抵御攻击者找到的所有弱点。

我们以KataGo 2023年3月的一个模型作为种子防御模型victim-0,该模型没有接受过任何对抗训练。在第一轮防御训练中,我们从base-adversary的一个早期checkpoint base-adv-early进行warmstart,使用KataGo的标准自对弈方式训练一个更强的攻击模型adversary-1。具体而言,adversary-1除了与victim-0对弈外,还与自己的早期迭代对弈并更新模型权重。类似地,在随后的防御回合中,我们通过自对弈的方式在上一轮最佳攻击模型的基础上训练一个新的攻击模型。

相应地,每一轮的防御模型victim-i是通过以adversary-i为对手对上一轮的victim-(i-1)进行微调得到的。在对弈中,我们让防御模型使用2倍于攻击模型的搜索预算,以鼓励其学习更鲁棒的策略。此外,我们引入了基于图像对抗训练的一些技巧,如循环学习率等。附录E中提供了完整的实现细节。

4.2 实验结果与分析
我们在4轮迭代后终止了训练,因为计算成本开始变得难以承受(累计使用了近100万个TPU-v4核心小时)。图4.2展示了每一轮adversary-i与victim-i在不同推理预算下的对弈结果。可以看出,第一轮的防御模型victim-1在抵御base-adversary方面取得了显著进展。然而,随着迭代的进行,防御模型的鲁棒性提升似乎出现了"饱和"。虽然victim-4能以67%的胜率击败adversary-3,但这一优势在面对最新的攻击模型adversary-4时就几乎完全消失了。

图片

我们对最终的攻防模型进行了更深入的分析。令人沮丧的是,我们发现adversary-4在victim-4身上发现了一个新的循环漏洞。如图4.3所示,adversary-4学会了把虎扑(tiger mouth)循环与征子直接结合起来,我们将其命名为"atari循环"。与之前的攻击相比,atari循环在局部更加紧凑,这可能使防御变得更加困难。事实上,在低搜索数下adversary-4能以81%的胜率战胜victim-4,而在高搜索数下这一优势仍然高达23%(图4.2)。

我们进一步研究了不同轮次的攻击模型在victim-4上的表现。可以看出,随着迭代轮次的增加,攻击者对防御模型的胜率整体上升。这表明,连续对抗训练可能会"过度适应"早期的攻击,而忽略了攻击空间中的其他区域。有趣的是,无论搜索预算如何,最早期的攻击模型base-adv-early在victim-4上几乎保持50%的胜率。我们推测这可能是因为base-adv-early揭示了一些非常普遍的弱点,而迭代对抗训练无法根除这些缺陷。

4.3 防御效果评估
基于上述结果,我们认为简单的迭代对抗训练不足以让围棋AI实现充分的鲁棒性。尽管防御者努力适应攻击者的策略,但攻击者仍然能以相对较小的代价找到新的漏洞,其中一些甚至比原始的循环攻击更加有效。我们的分析表明,一些基本的弱点可能根植于防御模型中,无法通过表面的修补来解决。此外,与基于位置的对抗训练一样,迭代训练得到的防御模型在人类鲁棒性上也存在不足。

当然,我们尝试的迭代对抗训练方案还比较初步,还有许多值得探索的优化空间,如更细粒度的课程学习、更广泛的数据增强等。然而,鉴于连续对抗训练在图像分类等领域的长期发展,我们认为在围棋领域取得实质性突破可能需要更根本性的变革。

5 基于视觉transformer(ViT)的防御
为了深入理解围棋AI的鲁棒性挑战,我们将视角转移到模型结构的选择上。我们注意到,几乎所有现有的高性能围棋AI,包括KataGo,都使用卷积神经网络(CNNs)作为骨干网络。然而,最近在计算机视觉等领域,基于transformer的模型如ViT开始展现出与CNN媲美甚至更强的性能。一些研究还表明,与CNN相比,ViT具有一些独特的归纳偏置,在对抗鲁棒性和零样本泛化等方面表现更好。因此,我们提出了一个问题:是否可以通过将CNN替换为ViT来缓解循环攻击漏洞?

5.1 模型结构与训练方法
为了回答上述问题,我们在KataGo的训练管道中用ViT取代了原有的CNN骨干网络,几乎没有修改其他组件。我们测试了三种不同尺寸的ViT变体:ViT-Base、ViT-Large和ViT-Huge,其参数量分别约为89M、305M和1.3B。为了进行公平比较,我们选择dec23-victim作为CNN基线模型,其大小与ViT-Large相当。我们使用与dec23-victim相同的非对抗性数据集来训练ViT模型,没有引入任何专门针对循环攻击的对抗训练。模型实现细节请参见附录F。

5.2 实验结果与分析
令人惊讶的是,我们发现ViT模型在标准围棋基准上的平均性能可以与最好的CNN不相上下。例如,我们的ViT-Large在KataGo评级等级(KR)上达到了8d,与dec23-victim的水平相当。更重要的是,所有三种尺寸的ViT在与职业棋手的对局中都表现出了接近人类顶尖水平的实力。据我们所知,本工作首次证明了transformer类模型可以在围棋领域达到如此高的竞技水平。

然而,在对抗鲁棒性方面,ViT模型的表现却令人失望。我们发现最终训练的ViT-Large很容易被之前针对dec23-victim训练的continuous-adversary攻击,后者在与1024次搜索的ViT-Large对弈时以98%的胜率获胜。更令人沮丧的是,就连针对早期非鲁棒KataGo训练的攻击模型base-adversary,也能在同等条件下以82%的胜率击败ViT-Large。

对ViT-Large模型在循环攻击下的弱点进行分析后,我们发现它犯的错误与dec23-victim的循环陷阱非常相似。这表明CNN模型容易受到循环攻击可能不仅仅是其结构归纳偏置的问题,更深层次的原因可能在于训练范式的选择。事实上,将基于位置的对抗训练方法(第3节)应用于ViT-Large,可以显著提高其对抗连续攻击者的鲁棒性。这进一步支持了我们的推测。

5.3 防御效果评估
ViT模型虽然在标准性能上令人振奋,但它们在没有专门对抗训练的情况下仍然难以抵御循环攻击。这一发现部分否定了我们最初的设想,即仅仅通过改变模型结构就可以解决鲁棒性问题。事实上,由于ViT模型在对弈中表现出与dec23-victim相似的弱点,它们在人类鲁棒性方面也得分不高。

尽管如此,我们认为ViT模型在对抗鲁棒性方面可能还有一些优势有待挖掘。首先,ViT模型可能比CNN更容易通过基于目标的对抗训练来强化,因为transformer中的自注意力机制天然就关注全局信息。其次,ViT模型强大的few-shot泛化能力可能有助于其在看到新的攻击时快速适应。最后,还有许多针对transformer的对抗防御技术尚未在围棋领域进行探索。因此,尽管目前的结果不尽如人意,但将CNN替换为ViT作为围棋AI鲁棒性的一种潜在解决方案仍然值得进一步研究。

6 对手博弈防御初探
在之前的防御尝试中,我们主要关注通过对抗训练来强化个体模型的鲁棒性。然而,博弈论告诉我们,在对抗环境中,个体的最优策略往往取决于对手的行动。受此启发,我们提出了一种新的防御思路:让防御模型在对弈中明确考虑对手的反应,主动规避可能导致失误的行动序列。我们将这种防御策略称为对手博弈防御(adversarial game defense, AGD)。

6.1 对手模型的构建
我们采取了一种简化的方法,即将一个经过微调的攻击模型用作对手模型。具体而言,我们选择continuous-adversary作为种子模型,并在高质量的人类对局数据上对其进行微调,使其更接近人类棋手的风格。我们将这个模型命名为human-like-adversary。尽管human-like-adversary可能无法完美复现真实对手的行为,但我们认为它足以作为一个有趣的起点。

6.2 将对手博弈嵌入到MCTS中
在标准的MCTS算法中,每个节点的值通常由一个策略网络和一个价值网络联合估计。为了将对手博弈引入其中,我们对叶节点的评估过程进行了修改。具体而言,我们让策略网络生成候选落子af后,将每个候选落子及其后续状态sf输入到对手模型中,获得对手的反应ar。然后,我们将(sf, ar)作为新的叶节点,由价值网络进行评估并回传。直观上,这相当于在搜索树中额外展开了对手的一步,防御模型由此可以考虑到对手的即时反应,选择对自己最有利的落子。

我们以ViT-Large作为基础模型,对其进行了2周的自对弈微调,过程中使用human-like-adversary作为对手模型嵌入到MCTS中。我们将微调后的模型记为ViT-Large-AGD。

6.3 实验结果与分析
我们首先评估了ViT-Large-AGD在标准围棋基准上的表现。如所示,引入AGD后,ViT-Large的棋力出现了轻微下降(KR从8d降至7d)。这可能是因为在搜索过程中考虑对手的反应会稍微偏离最优路径。不过,ViT-Large-AGD在面对人类棋手时仍然表现出了接近顶尖的实力。

接下来,我们考察了ViT-Large-AGD在循环攻击下的表现。出乎意料的是,ViT-Large-AGD展现出了显著的防御效果。在与1024次搜索的continuous-adversary对阵时,ViT-Large-AGD的胜率从2%提高到了45%,而ViT-Large在引入基于位置的对抗训练后的胜率也只有33%。更令人印象深刻的是,ViT-Large-AGD甚至能以31%的胜率击败搜索131072次的continuous-adversary,远高于任何之前的防御方法。

为了进一步理解AGD的作用机制,我们分析了ViT-Large-AGD在循环攻击下的博弈过程。面对continuous-adversary的循环诱导,ViT-Large-AGD会主动选择打断循环的应对,从而避免了恶性循环陷阱。有趣的是,ViT-Large-AGD的这些应对往往与人类棋手惯用的化解手法非常相似。这表明通过对手博弈,ViT-Large-AGD学会了在看似危险的循环中辨别真正的威胁,并做出了更加人性化的决策。

6.4 防御效果评估
尽管还处于初步阶段,但对手博弈防御为围棋AI的鲁棒性问题提供了一个有前景的新思路。通过引入对手模型并将其嵌入到搜索过程中,AGD使防御模型能更全面地评估局面,预见对手的反应,进而规避可能的陷阱。我们在ViT-Large上进行的实验表明,即使使用一个简单的human-like-adversary作为对手模型,AGD也能大幅提高模型抵御循环攻击的能力,同时在面对人类棋手时保持较高的竞技水平。

当然,AGD还有许多值得进一步探索的问题。例如,目前我们只在搜索树中展开了对手的一步反应,而现实中的博弈往往涉及多轮交互。因此,一个自然的想法是将对手模型的预测向更深层次扩展。此外,虽然human-like-adversary作为一个起点还不错,但它与真实对手的行为仍有差距。未来可以考虑通过不断地在线学习来动态更新对手模型,使其更好地匹配真实对手的特点。最后,我们目前只在ViT模型上测试了AGD,但这一防御框架应该可以很容易地迁移到其他模型结构中。总的来说,我们相信AGD是一个很有潜力的防御方向,有望与其他防御技术相结合,进一步提升围棋AI的鲁棒性。

7 量化分析与综合讨论
在之前的章节中,我们从不同角度探索了围棋AI面临的鲁棒性挑战以及可能的解决方案。本节将对这些结果进行量化分析和综合讨论,以期对围棋AI乃至其他领域的鲁棒机器智能研究提供启示。

7.1 防御效果的量化比较
为了系统评估不同防御方法的有效性,我们引入了一个量化指标——攻击成本(attack cost)。直观上,攻击成本衡量了攻击者为达到一定胜率所需付出的计算代价。我们用攻击模型相对于防御模型的搜索次数比来度量这一成本。例如,如果一个攻击模型需要搜索256次才能达到50%的胜率,而防御模型只搜索64次,那么攻击成本就是256/64=4。攻击成本越高,说明防御模型的鲁棒性越强。

根据论文的图表，展示了不同防御模型在面对continuous-adversary时50%胜率所对应的攻击成本。可以看出,基于位置的对抗训练和迭代对抗训练都能显著提高攻击成本,但效果并不理想。例如,dec23-victim的攻击成本虽然是非鲁棒模型的3倍,但仍然不到10。迭代对抗训练得到的victim-4略好一些,但其攻击成本也只有24。相比之下,ViT-Large-AGD展现出了明显更强的防御效果,其攻击成本高达128。值得一提的是,攻击成本对应的是50%胜率,而在更高胜率下ViT-Large-AGD的优势会更加明显。

7.2 人类鲁棒性的定量评估
除了抵御刻意设计的攻击外,我们还希望围棋AI能在面对人类棋手时表现出鲁棒和可解释的行为。为了定量评估这一人类鲁棒性属性,我们请3位职业棋手(1个九段和2个八段)分别与不同的模型进行了10局对弈,并记录了每个模型犯下明显错误导致失败的频率。我们将这个频率称为失误率(blunder rate),失误率越低,说明模型的人类鲁棒性越好。

非鲁棒的KataGo模型(如base-victim)的失误率非常高,接近30%。即使是接受过防御强化的模型,如dec23-victim和ViT-Large,其失误率也在15-20%。相比之下,ViT-Large-AGD的表现要好得多,其失误率只有8%,与人类职业棋手处于同一水平(附录H)。有趣的是,ViT-Large-AGD的这一失误率甚至略低于使用高达131072次搜索的dec23-victim,表明通过AGD,围棋AI可以在更低的计算预算下实现更高水平的人类鲁棒性。

7.3 讨论与未来工作
综合以上实验结果,我们可以得出以下几点认识:

循环攻击揭示了当前围棋AI在鲁棒性方面的严重不足。这一问题不仅局限于特定的模型结构(如CNN),也难以通过常规的对抗训练来解决。

仅仅追求在标准围棋基准上的高胜率并不能保证模型的鲁棒性。事实上,一些在棋力上接近人类顶尖水平的模型(如ViT-Large),在面对刻意设计的对手时仍然表现得非常脆弱。

将多智能体博弈的思想引入到训练和推理过程中,可能是一个提升围棋AI鲁棒性的有效途径。我们提出的AGD防御就是这一思路的初步尝试,取得了鼓舞人心的效果。

人类鲁棒性应该作为评估围棋AI的一个重要维度。一个真正强大的围棋AI不应该仅仅在与同类对弈时表现出色,更应该能经受住人类棋手的考验,在节奏与风格迥异的对局中稳定发挥。

当然,本文的探索还只是一个开始,未来还有很多工作可以展开。首先,虽然我们重点关注了循环攻击,但围棋AI可能还存在其他类型的弱点有待发掘。构建一个全面的鲁棒性基准和评估体系将是一项重要但艰巨的任务。其次,AGD作为一种新的防御范式还有很大的优化空间,例如考虑对手的长期博弈、引入多个异构的对手模型、在线对对手模型进行调优等。最后,本文聚焦围棋领域进行研究,但我们认为其中的一些见解可能具有更广泛的意义。探索如何将围棋AI的鲁棒性分析方法和解决思路迁移到其他对抗性场景中,也将是一个非常有价值的研究方向。

8 结语
本文以围棋AI为例,系统研究了当前深度强化学习系统在鲁棒性方面面临的挑战。我们发现,尽管一些最先进的围棋AI已经在标准棋力上达到了超人水平,但它们在面对刻意设计的对抗性攻击时仍然表现得非常脆弱。我们从对抗训练、模型结构、对手博弈等角度探索了可能的解决方案,在抵御攻击和提高人类鲁棒性方面取得了一定进展。尤其是我们提出的对手博弈防御方法(AGD),通过将多智能体博弈引入到模型训练和推理中,大幅提高了围棋AI的鲁棒性,为解决这一问题提供了新的思路。

同时,我们认为本文的研究意义不仅局限于围棋领域。随着人工智能系统在现实世界中的应用日益广泛,鲁棒性已经成为一个关乎社会信任和安全的重大问题。围棋之所以能为这一问题提供一个绝佳的研究平台,是因为它既有严谨的数学结构(如完全信息博弈),又充满了策略多样性和不确定性,非常考验智能体应对对手的能力。因此,我们有理由相信,在围棋领域的一些研究方法和洞见可以启发更一般的鲁棒机器智能的发展。

展望未来,围棋AI鲁棒性的领域还有以下几个方向值得进一步探索:

继续完善对手博弈防御方法,扩展其在更复杂的多智能体系统中的应用。例如考虑对手的长期博弈、引入群体对抗等。

针对围棋AI开发更全面的鲁棒性评估基准,覆盖更多潜在的攻击类型和评估维度。将这一基准推广到其他棋类游戏甚至一般对抗环境中。

探索将博弈论、机制设计等经典智能理论与当前的深度学习方法相结合,以期从算法基础上提升模型的鲁棒性。

研究围棋AI生成的弱点、攻防策略对人类棋手的启发。一方面这有助于提升人类本身的对弈水平,另一方面也可为鲁棒性研究带来新的灵感。

最后,我们应该将鲁棒性作为未来围棋AI以及更广泛人工智能系统的一个核心诉求。一个只在理想条件下高效工作的系统是远远不够的,我们需要的是经得起现实世界冲击和考验的、值得信赖的智能助手。这需要人工智能领域的研究者和从业者在技术创新的同时,坚持以鲁棒、透明、可解释作为基本原则。我们相信通过学界和业界的对手博弈防御方法(AGD)为围棋AI的鲁棒性研究开辟了一个有前景的新路径,我认为它在其他许多领域也有广阔的应用前景。概括起来,AGD可能在以下几类问题中发挥重要作用:

多智能体系统。很多现实世界的应用场景,如无人驾驶、智能电网、网络安全等,都涉及多个智能体的互动博弈。AGD的核心思想正是将对手的策略引入到智能体自身的决策中,使其具备博弈思维。这对多智能体系统的鲁棒协调至关重要。

对抗学习。对抗学习已在图像生成、风格迁移等领域取得了广泛应用,但其训练过程的稳定性一直是个挑战。AGD通过嵌入对手模型使训练更加动态和自适应,可能成为改进对抗学习的一个突破口。

安全关键系统。自动驾驶、工业控制、金融交易等关乎社会安全和财产安全的系统,都要面临各种刻意设计的对抗性攻击。将AGD与这些系统的异常检测、风险评估模块相结合,有望大幅提高它们抵御攻击的能力。

博弈论研究。作为一种将博弈论思想引入机器学习的新范式,AGD可以极大拓展传统博弈论研究的应用边界。例如,可以考虑用AGD去求解一些难以精确建模的现实博弈问题,或者自动设计出在特定环境中有效的博弈机制。

仿人机器智能。人类在与他人的交互中展现出了极强的社交智能。我们能设身处地为他人考虑,预判对方的行为并做出恰当的应对。从这个角度看,AGD可以视为朝着构建仿人机器智能迈出的重要一步。

当然,要真正将AGD推广到这些领域,还有不少理论和工程上的挑战需要克服。譬如如何在连续状态-行动空间中构建有效的对手模型,如何权衡计算复杂度和博弈深度,如何有效评估AGD增强系统的安全性等。这需要机器学习、博弈论、控制论等多个领域的研究者通力合作。

而且从这篇论文的分析和实验结果来看,我们可以得出目前AI系统在鲁棒性方面还存在不少问题,在某些关键应用场景中可能还不足以支撑大规模部署。主要理由如下:

1. 脆弱性。论文以围棋AI为例揭示了当前先进的深度强化学习系统在面对刻意设计的对抗攻击时表现出的脆弱性。这一发现具有一定的普遍性,说明仅仅追求标准测试集上的高性能并不能保证模型在复杂多变的真实环境中稳定工作。

2. 防御困难。面对围棋AI的脆弱性,论文探索了多种主流的防御方法,如对抗训练、迭代对抗训练等。实验结果表明,这些方法虽然能在一定程度上提高模型的鲁棒性,但效果并不理想。围棋AI的这一困境也可能存在于其他需要鲁棒性的任务中。

3. 人机差距。通过引入"人类鲁棒性"的概念并设计相应的量化指标,论文发现即使是棋力接近人类顶尖水平的围棋AI,在应对不同风格、节奏的人类棋手时也常常表现得不够稳健。这反映出当前AI系统与人类智能在鲁棒性方面还存在明显差距。

4. 高风险领域。论文特别指出,在自动驾驶、工业控制、金融交易等安全关键领域,AI系统必须具备很高的鲁棒性才能被大规模采用,而目前的技术水平离这一要求还有相当大的提升空间。

综合以上，这篇论文通过在围棋领域的系统实验对当前AI系统的鲁棒性水平给出了一个相对严峻的评估。虽然论文也提出了对手博弈防御等有前景的新方法,但就目前而言,在那些对鲁棒性要求极高的场合谨慎地大规模应用AI系统可能是明智的。这也呼吁研究者和从业者高度重视AI的鲁棒性问题,致力于发展更安全、可靠、可解释的智能技术。只有这样,AI才能真正赢得大众的信任,并最终造福人类社会。

但尽管如此,AGD作为一个富有启发性的防御框架,仍为传统的鲁棒机器学习研究提供了一个全新的视角。它揭示了博弈思维在构建鲁棒智能系统中的重要作用。可以相信随着理论的进一步发展和实践的不断深入,AGD必将在更多的领域崭露头角,为打造安全、可信、可解释的人工智能铺平道路。

原文，https://mp.weixin.qq.com/s?__biz ... 0&lang=zh_CN#rd

参考论文：

arXiv:2406.12843v1

欢迎光临爱吱声 (http://www.aswetalk.net/bbs/)