中美AI竞赛升级！前谷歌CEO提出“相互确保AI失灵”战略 - 爱吱声

破坏竞争对手人工智能项目的途径。意图阻止人工智能战略垄断的国家可以采用一系列策略，首先是间谍活动，情报机构会悄悄获取竞争对手人工智能项目的详细信息。在知道目标后，他们可能会进行秘密破坏：地位显赫或受到勒索的内部人员可以篡改模型权重、训练数据或人工智能芯片制造设施，而黑客则会悄悄降低训练过程的质量，使人工智能在完成训练后的表现不佳。这类似于旨在秘密破坏伊朗核浓缩计划的震网病毒。当微妙的手段被证明过于受限时，竞争对手可能会升级为公开的网络攻击，以数据中心芯片冷却系统或附近的发电厂为目标，直接（如果是明显的）破坏发展。如果这些措施失败，一些领导人可能会考虑对数据中心进行动能攻击，他们认为，让一个行为者冒着主宰或摧毁世界的风险是更严重的危险，尽管动能攻击可能是不必要的。最后，在严峻的情况下，各国可能会诉诸更广泛的敌对行动，通过攀爬现有的升级阶梯或威胁非人工智能资产。我们将针对竞争对手人工智能项目的攻击称为“致残攻击”。/ I3 i5 \" L5 O R- W) F

$ w% f3 Z0 u w: O5 S4 I无法防止损坏。由于目前无法保护地上数据中心免受高超音速导弹的攻击，因此，一个寻求保护其人工智能战略垄断项目的国家可能会试图将数据中心深埋地下以保护它们。实际上，成本和时间表令人望而生畏，而且仍然存在漏洞。建设时间可能比标准数据中心建设时间长三到五倍，相当于额外几年。成本也会膨胀，将资金从项目的人工智能芯片中转移出去，并将总支出推高至数千亿美元。在地下冷却世界上最大的超级计算机带来了复杂的工程挑战，远远超出了小型地下装置所需的挑战。如果超级计算机需要进行数量级的人工智能芯片扩展，那么改造该设施将变得极其困难。即使是那些有财富和远见走这条路的人，仍然会面临内部威胁和黑客攻击的巨大风险。此外，整个项目可能会在漫长的建设阶段遭到破坏。最后，各国可以在该项目上线之前就威胁非人工智能资产以阻止该项目。
3 j9 X+ U8 w% H1 l( v

67c667ce1f9a9632dbdb4b1e_others_superintelligence-03.png (425.14 KB, 下载次数: 270)

下载附件保存到相册

2025-3-15 22:59 上传

! `* e7 T6 C2 ^- q6 w* NMAIM 是默认选项。（网络）间谍活动和破坏竞争对手不稳定的人工智能项目相对容易，这产生了一种威慑形式。就像核竞争对手得出结论认为先发制人可能会引发自己的毁灭一样，寻求人工智能垄断并冒着失去控制风险的国家必须假设竞争对手会在项目接近完成之前破坏它。如果任何竞争对手认为其人工智能项目构成了不可接受的风险，那么一个国家就可以预料到该项目会被禁用。这种动态稳定了战略格局，无需冗长的条约谈判——所有必要的是各国共同承认其战略形势。最终效果可能是僵局，推迟超级智能的出现，减少许多失控情景，削弱确保战略垄断的努力，就像相互保证摧毁曾经抑制核军备竞赛一样。

如何维护 MAIM 制度
) E1 i1 S  s$ B/ Q- \, m5 L+ z2 Z! I$ F" G
各国最终接受了这样一个事实：相互威慑虽然似乎是核武器储备的自然副产品，但需要刻意维护。每个超级大国都认识到，先进的防御措施——尤其是反弹道导弹 (ABM) 系统——可能会破坏阻止双方发动灾难性先发打击的脆弱平衡。他们通过保护相互的弱点来应对，最终在 1972 年签署了反弹道导弹条约。类似地，我们不应该让当今 MAIM 的默认条件听天由命：潜在的垄断者，赌一把不造成全人类毁灭，可以预料到他们的项目会被禁用。即使试图强化大型数据中心是极其禁止和不明智的，但谣言本身就可能引发人们对竞争对手将危及国家安全和人类安全的担忧。正式达成不追求此类防御的谅解有助于保持僵局稳定。我们现在讨论遏制意外升级和限制附带损害的其他措施，以便 MAIM 不会演变成更广泛的冲突。
8 S" c9 H8 @1 E
, X# v+ P6 V/ `" U. W4 M' z) d保持理性决策。正如核对手曾经绘制发射路径上的每个梯级以减少误解一样，人工智能大国必须明确间谍活动、秘密破坏、公开网络攻击、可能的动能打击等升级阶梯。为了保持威慑力，双方必须了解致残准备情况，确保任何致残行为（如网络攻击）不会被误读并导致不必要的升级。然而，如果流氓政权或极端派系获得大量人工智能芯片，那么升级的清晰度几乎没有威慑价值。防止人工智能芯片走私的措施将决策权掌握在更负责任的国家手中，而不是流氓行为者手中，这有助于保持 MAIM 的威慑价值。与 MAD 一样，MAIM 要求将破坏稳定的人工智能能力限制在理性行为者手中。$ }' B0 e* B4 X2 O
1 [9 w- o1 m) u5 V. {
扩大人工智能项目网络攻击的武器库。为了避免诉诸动能攻击，各国可以提高利用网络攻击破坏不稳定人工智能项目的能力。他们可以识别人工智能开发人员的项目，或收集有关人工智能开发人员科学家的专业活动的信息。要监视大多数公司的人工智能项目，只需要一个 Slack 或 iPhone 零日软件漏洞。各国还可以毒害数据、破坏模型权重和梯度、破坏处理故障 GPU 的软件或破坏冷却或电源系统。训练运行是不确定的，即使没有错误，其结果也很难预测，这为许多网络攻击提供了掩护。与动能攻击不同，其中一些攻击几乎没有留下明显的入侵迹象，但它们可以严重破坏不稳定的人工智能项目，而外交影响却微乎其微。
! e% S5 a$ s7 j7 f* o
' e+ \2 r( Q& A& ~# r4 j# D在偏远地区建立数据中心。在核时代，超级大国故意将导弹发射井和指挥设施放置在远离主要人口中心的地方。这种避开城市的原则，类似地，建议将大型人工智能数据中心放置在偏远地区。如果发生激进的破坏行动，该行动不会让城市陷入交火之中。0 O% m" U# ~. ?* R/ [& H
带有致残行动的 MAIM 升级阶梯示例。# m5 }3 G- \' u" Q, z- J* {. ]" K
对许多数据中心进行大规模攻击；威胁非人工智能相关资产8 w  B" O0 {  f9 Z8 E, h+ }7 U
升级为更广泛的敌对行动
! I8 p7 P# v# \, N: v; |对数据中心或相应发电厂的动能攻击
, ]" L+ |  C+ B( [动能陣陣
1 p3 M& u8 R6 i4 ^; k! K对数据中心或相应发电厂的网络攻击；删除代码: ^7 Q) y+ t2 ~
公开破坏阈值9 X' T) Y4 J" L0 ]; ?8 M+ U
模型权重被窃取；秘密攻击降低不稳定 AI 项目的训练运行；网络攻击导致 GPU 更频繁地出现故障" g3 K* X! E+ u# ~/ f
隐秘破坏阈值$ E8 L* z6 m: q; D) a
间谍活动：对人工智能开发人员工作空间通信、人员设备和设施进行监视
- p* |( H* G( ?: Y2 W# Z5 ?1 R' h8 `9 V! f6 d+ y
区分破坏稳定的人工智能项目和可接受的使用。破坏性攻击的威胁使各国有能力要求竞争对手采取透明措施，例如检查，因此它们不必仅依靠间谍活动来决定破坏是否合理。协调可以帮助各国降低破坏仅运行面向消费者的人工智能服务的数据中心的风险。相互观察的方法呼应了《开放天空条约》的精神，该条约采用非武装飞越来表明双方都没有隐藏导弹部署。本着类似的精神，提高透明度可以保护日常人工智能服务的更广泛生态系统，并降低全面破坏的风险。
% R3 \: \& j3 Y8 m) \9 _& G2 F% }8 ^) v: z. S
人工智能辅助检查。虽然只是推测，但越来越可信，保密性保护的人工智能验证器提供了一种确认人工智能项目遵守声明约束而无需泄露专有代码或机密资料的方法。通过现场分析代码和命令，人工智能可以发布保密性保护报告或简单的合规性裁决，除了设施是否正在创建新的不稳定模型之外，可能不会透露任何其他信息。考虑到无意中收集或泄露信息的危险，人类无法轻易扮演同样的角色，因此人工智能可以重塑安全性和透明度之间的经典矛盾。来自这些人工智能检查的信息可以帮助将任何潜在冲突限制在禁用人工智能开发程序的范围内，而不是升级为消灭人口。这种机制可以在遥远的未来提供帮助，届时人工智能开发需要更少的集中化或更少的计算资源。! [5 @# J: u% ?- Y& q1 s6 {- U
- H: S) C+ a2 U, T
通过单边信息获取（间谍活动）、多边信息获取（验证）、单边致残（破坏）和多边致残（联合关闭），MAIM 可以变得更加稳定。在这些条件下，相互保证的人工智能故障不必演变为相互保证的人类毁灭。+ Y  o4 m3 @  k* p: n. V/ e
/ D( R3 T7 k! `0 u6 ~
破坏稳定的人工智能项目僵局可能会自然而然地出现，但这并不意味着会持续数十年或成为无限期的僵局。在僵局期间，寻求从创建更强大的人工智能中获益的国家有动机提高透明度并采取验证措施，从而降低破坏或先发制人攻击的风险。在结论中，我们说明了这种僵局可能如何结束，让人工智能的好处在没有全球不稳定的情况下增长。