TA的每日心情 | 开心 2020-4-8 10:45 |
|---|
签到天数: 227 天 [LV.7]分神
|
玻璃之翼降临——Glasswing计划与Claude的Mythos Preview
9 a+ ?, x8 M5 k' ~
* c! _2 ]0 y& Q) y1 M4 f( i1 }7 Z
4 r% J {5 e8 i9 d7 L一个预览版的AI大模型刚刚挖出了一个尘封27年的漏洞,然后11家科技巨头都坐不住了……& H5 T& h8 J% |1 |
3 R% R$ g0 U: [3 ^3 J1 K, {# v4 x故事是这样的。
) A0 s) C" {) _4 [) ~' s
% v: n2 a E7 m/ |我今天看到这个新闻,看完之后愣了好几秒。
4 t M. u/ H! ^, |, v. [0 v
$ D0 I# E* ?4 y6 C1 r$ ^一家叫OpenBSD的公司——做操作系统的,算是安全领域的老前辈——他们有一个漏洞,在代码里躺了整整27年。1998年写进去的,没人发现。1 o) O; R5 L* Q# q T: P6 `" @+ q
( e7 p! q: s& m* S4 I
结果被一个AI模型给挖出来了。* |4 \7 _& D& ^" a$ g
* I$ p5 N | V, _( i" X0 n0 v这肯定不是那种"我们用AI扫了一下代码库发现了问题"的挖出来。而是那种"这个漏洞藏在最核心的地方,所有传统工具都扫过5百万次,一次都没报过警"的条件下挖出来。- o7 n6 o' e' ?, ?( @0 |4 ~3 o: P
% e% m$ r- f. H然后,这个AI模型,顺手还把FFmpeg里一个16年的漏洞也给挖了。7 y) E2 s5 @7 N5 G
3 `6 V, Q/ R5 P2 l
FFmpeg,音视频处理领域最最最核心的基础设施。全世界的视频播放器、浏览器、直播平台,有几个不是建立在FFmpeg之上的?这个漏洞在里面藏了16年。5百万次自动化测试,没一次报过警。4 T/ Q" o& d% [# o% W8 m
/ [. t2 ^- j3 h) M6 m w9 D* i
然后呢?6 c8 i6 f3 P! b2 ?2 ^8 _. O
3 Q6 ~2 F( c& l: h6 u$ U/ L
然后,11家全球最大的科技公司——Google、Microsoft、Apple、NVIDIA、CrowdStrike、JPMorganChase、Google等等——坐下来,说了一句话:我们一起出钱,让这个AI模型,能被全世界的安全研究员用上。
% B7 _+ Z/ m9 A" m0 r- U
. q, ^+ A+ s* y$ |! t+ g5 m这个项目,叫Glasswing。, I4 ^& s7 K) V% }- X9 h' X. k* c
) [3 j$ W6 s( bglasswing, Y% |# U( l: H9 k2 g1 z
; m$ W/ k5 ?" D2 Z
" C1 O+ c( T0 K4 \& t
先说清楚Glasswing是什么。
8 @% h* T- {3 O2 J' A( B- W, u/ D# d8 ]0 T' Z9 n# ]7 s. C
简单说,它是一个AI安全联盟。发起方是Anthropic,加入方是一堆哪怕是不关注技术领域也叫得出名字的科技巨头。它的核心,是一个叫Claude Mythos Preview的模型——注意是Preview(预览版),就是还没正式发布的那个版本——专门训练来挖漏洞的。
2 @" E- C" J; B+ }1 `4 F/ c5 b, V- b" D. k$ T& q
有多强呢?
3 ?8 b2 @/ L7 s% N; Y- i: R6 ^$ k0 u0 X* d, D: P8 K5 a+ [
CyberGym基准测试,83.1%。作为对比,Claude Opus 4.6,得分是66.6%。不是Claude Opus 4.5,是Claude Opus 4.6,Anthropic目前最强模型。
; }! _2 M2 v" Y% T9 S. D6 S! f0 B! \ K2 ` H* D1 J$ i. T* h
SWE-bench Verified,93.9%。还是SWE-bench Verified,不是那个容易一点的版本。Claude Opus 4.6是80.8%。; e; V, F! ?" A: ^. t# \& D( `
5 x3 T' p6 ?& ?/ x5 f# K
差了13个百分点。" i7 \) q) w# c
8 N4 C* f3 T" S& k7 d( F' }( Y
你说这13个百分点意味着什么?/ ]# b% k" i* |6 f8 o* _ J
; T4 p" V& M1 l: v
意味着,传统扫描工具漏掉的那些最刁钻的漏洞——那些藏在层层调用关系里、藏在异常分支里、藏在并发边界条件里的漏洞——Mythos Preview能找到。
; d9 n9 z. ?$ I
; N% p5 }) I* _/ W意味着,27年的OpenBSD,16年的FFmpeg,以后可能不会再有了。* {1 B( L1 n8 v1 p. O' W1 K9 F
! Z2 b4 U' v5 O! \5 L9 X
或者说,这种级别的漏洞发现速度,会比以前快几个数量级。. N( b) e6 d& p+ f% g! x7 B
6 E& O( u& \ n* _( {: a C1 r
说到这个OpenBSD的漏洞,我必须展开讲一下,因为这个例子太有意思了。
6 @# D7 A( `2 Y6 U" U# e
3 `0 n, ~+ h; HOpenBSD是个什么存在?
4 s3 m( ~5 ^0 u- E! Z) l7 A" P
5 d$ P; R2 H6 _! s它是BSD操作系统的一个分支,最核心的设计哲学就是安全。代码审计之严格,在整个开源社区都是有名的。很多安全研究员的信仰级操作系统。
f4 U1 M6 l3 `) h6 N& [! X7 f3 J/ K# V: F! U+ {
这样的项目,代码审计了多少年了?二十多年。
$ E1 F) w9 a# s3 W) w, J7 \
2 O( N' X' Y* P- h然后,一个漏洞,在里面躺了27年。+ X: {: C6 I1 x( p
( L5 x$ R3 d0 P7 T: ]
这说明什么?$ j; e% a. D5 f" j
8 O4 D* D: T" N( g不是OpenBSD的人不行,是传统的审计方式有盲区。任何人工审计,只要时间足够长、人足够累、代码足够复杂,就一定会有漏洞漏过去。这是人性的边界,不是能力的边界。
- a- _/ X1 h1 L% a) o! g. c c% |- P, E# N4 u! |/ p
但AI不一样。AI不会累。AI不会因为审了三个月之后注意力下降。AI可以在几个小时之内,把整个代码库的所有调用路径、所有边界条件全部穷举一遍。9 T- Y. R. Z: _$ F! K
2 ^8 b0 a: h; y4 ?' L! j& M* \Mythos Preview发现的那个OpenBSD漏洞,是一个本地权限提升漏洞。攻击者如果已经拿到了一点点访问权限,可以利用这个漏洞进一步提升到root权限。
# h; s/ W3 S/ u5 ?' \
' _0 m: v2 e# ~/ {. K) @这种漏洞可怕在哪?! y' ~; N, w/ D( E; l7 c
( a+ g! b' d) ?( r8 x! H
它不显眼。它不是那种"输入框里填个单引号就弹shell"的漏洞。它需要你对系统有相当深的理解,才能构造出触发条件。
( c* q, d$ {8 b( E. C5 a+ k8 A2 N |' t3 U5 G7 \
传统扫描工具扫不出来,是因为它的payload模式不在规则库里。AI不一样,AI学的是语义理解,它不是匹配特征,它是理解代码在"想什么"。
4 \ I: @& U; D0 c/ I$ s1 V) F
2 E1 T7 x R2 BFFmpeg那个例子更让我震撼。
5 x) U3 P" J7 Q+ k: |6 F( U1 }$ ~) K2 {& H; Y
16年。9 {' Z( Z8 `/ a; ~+ {
7 R2 h; k6 ?( |6 {+ EFFmpeg上一次发现这种级别的漏洞是什么时候?2009年。2 z6 m ?8 q" I0 ]' C
7 i! c3 a9 _3 Z3 p16年都没有人发现。然后Mythos Preview扫了一下,找到了。
7 p7 c# R# [1 n
) v1 t* R& u% E, \6 P5 \/ I% e注意这个"扫了一下"的背景。SWE-bench测试集里,有大量是真实世界里的bug修复历史。FFmpeg这个bug在历史上真实存在过,是某次修复的时候被记录下来的。这意味着,Mythos Preview不仅能做代码审计,它能做的是:从海量代码里,识别出"这个写法有问题,即使目前还没有人报告过"。+ k, k3 d' ^( Z6 O0 _1 S& z
; a0 ?# T0 l8 j, m0 g
这是主动防御,不是被动响应。
: r) k6 E3 ]& E& l5 }: i$ R1 c$ e% |$ F# t; E- U
传统安全的方式是:出了事 → 分析样本 → 提取特征 → 更新规则库 → 下次能识别。
S' q6 R- r5 M9 Q/ s; Q9 x" N. O: }, B
AI安全的方式是:不需要样本。直接读代码,告诉你这里有个洞。
2 ]! K0 z: B' s8 ~9 ?6 S1 l" Q+ i# o7 ~$ `1 _( f
这两者之间的差距,大概就是"等贼来了再装防盗门"和"在盖楼的时候看着图纸就告诉你这堵墙扛不住地震"的差距。
( v& e3 e7 i" F8 }" {4 L) r
$ t5 t0 x- F# c/ n现在说说大家最关心的问题:谁能用到,怎么用,花多少钱。
2 A9 D7 s: W2 K1 B; k2 u# k2 y2 U% K5 W1 L2 r5 C" C$ W
Glasswing的AI能力,现在跑在三个平台上:Amazon Bedrock、Google Vertex AI、Microsoft Foundry。9 J. a% I- t4 l
1 o# l* r. I8 G! f5 g
这三个平台,恰好是AWS、Google Cloud、Azure。全球三大云服务商。 U+ u1 I! l. m7 G) u
5 _# t2 ^7 i0 e- I; w. x7 u你在任何一个上面,都能调用Mythos Preview的漏洞检测能力。
$ g4 ^/ P, z* i7 `% _8 A5 }6 e1 m$ m! R: D& p" B
价格呢?过了初始的credits之后,每百万token输入25美元,每百万token输出125美元。
) f) R" {; A1 t: V% X2 J% o' o4 P" n8 k6 y1 z+ x
这个价格贵不贵?% x" V' z. M0 r; b H# D5 S8 b0 t! I/ K
8 w9 P V ?3 a" k! E; ?$ |
对比一下就知道了。现在市面上做代码安全扫描的工具,像Snyk、Veracode这一类,商业扫描工具的报价大概是每个开发者每个月几十到几百美元不等。而且它们扫的是规则匹配,不是语义理解。3 V9 r+ G6 i5 [9 n; I3 X
' c* n3 b; @# L# u6 \0 pMythos Preview能发现那些工具发现不了的漏洞。
- |( {7 Q% B3 i% z) `5 V: u
* J- x. B2 p* C( ~* F这不是贵不贵的问题了,这是"有没有意识到你以前省的那些钱其实在交更多的学费"的问题。 Z3 Y, A6 ^( c( C$ f
( I2 @- `: B( Z
另外,Anthropic自己掏了1个亿美元的使用额度,分给联盟成员和开源社区。还额外捐了400万,250万给Alpha-Omega/OpenSSF,150万给Apache软件基金会。
9 A* i1 ?5 K4 O, z$ U) I
/ m) W0 u i6 X1 n6 p6 _3 M这些钱是用来干什么的?让那些没有商业利益驱动的开源项目,也能用上最好的漏洞检测能力。
- J: W" I" \( ?
5 W4 e0 W. x" s! A x7 n, o$ NFFmpeg就是开源的。OpenBSD也是开源的。这些项目没人给他们钱做安全审计,但他们的代码,运行在全球几十亿台设备上。9 U3 T' g* t% Z. O, \* ?( A
, u8 E6 r$ u8 e7 t8 E- |9 O6 h
还有一个细节,我觉得特别有意思。
, u- Q( I1 k$ X( ~0 E m+ i7 X( e3 ^3 t# T
漏洞发现之后,公开披露的时间是90天。
6 `) L1 C* P& U" ?$ A! ?5 N. k; c! c& {: k
90天是什么概念?
$ g ]; j: @; }* e$ d, j* _9 Y0 b! h
行业标准的漏洞披露窗口是90天。这个时间足够让厂商评估漏洞、制定修复方案、推送更新,但又不至于让漏洞在黑市上流通太久。
3 z" ?- a8 V/ ?" Q& a
* M! _" K x9 Y7 m' p) W但这里有一个问题:90天是针对"有人发现了漏洞"这个前提来说的。( F9 H. O, q/ ?- O$ b# p7 q* @
7 _% x7 N: N8 Q- Y
Mythos Preview现在能以前所未有的速度挖出漏洞。它一天挖出来的漏洞,可能比以前整个安全社区一个月挖的还多。
# b2 ~; H9 N! _. Q" \7 P2 r# h4 z0 q. |4 F
这意味着,漏洞披露的节奏,整个就变了。' q) L4 P4 S! O3 w0 D2 \
2 ~- U+ q4 a( ~* x
以前是"挖到一个,披露一个"。现在是"AI在持续不断地挖,每90天披露一批"。
& a& K6 z! y+ U$ m4 c
) C/ Q; A- O- q6 H厂商的补丁开发速度,能不能跟上AI的发现速度?
- U S5 p9 ~2 y1 N/ _# C \* {* B! z+ j& Z, [5 ~* _- l- w
这个,我说实话,不知道。但我觉得,这是整个Glasswing项目最值得观察的地方之一。
. ]5 x- s- U0 m* e4 J, w" a) M( X+ z- x' R& J. N
写到这儿,我突然想到了一个更大的问题。
1 s- z- T$ M. h% z" T* E" g/ C% |' z/ E1 ^% h( U
Glasswing这个名字,本身就是一只蝴蝶的名字。玻璃翼蝴蝶。它的翅膀是透明的,像玻璃一样。
% V/ t$ W w8 \! }- q, ]1 V" K! o# _/ m
透明,意味着隐藏的东西变可见了。1 O9 P) H) i9 B2 k4 ^ v
: L" G/ b' _( n/ D
一只蝴蝶的翅膀是透明的,它就隐藏不了任何东西了。它在哪里,飞向哪里,所有捕食者都看得清清楚楚。' d) Q& P/ @& k9 _
9 n: [4 {0 ]& ]) A这个意象,放在漏洞挖掘上,太精准了。6 j% M8 ]# o9 Y7 G
`& q! O; F# h9 }: A/ m3 g( p& k" ?5 Z
代码里那些隐藏了几十年都没人发现的漏洞,在AI的"眼睛"之下,突然就透明了。
# J( z; h- I0 V, j* n3 N
4 ^1 R3 r; }" [8 r& R3 d以前我们说"security through obscurity"——通过隐藏来保证安全。你的代码不公开,漏洞藏在暗处,攻击者找不到。# c- _1 E8 m6 w8 x- {
" {! K7 z) H6 @; ]但现在,只要代码存在,AI就能读。Mythos Preview不需要你的代码是开源的,它只需要能接触到代码——不管是源码、还是编译后的二进制、还是运行时的行为轨迹。8 R. L+ L* h5 o, S. M
" @1 Y- E2 e' o# ]' Q代码越来越难藏了。或者说,代码里的漏洞越来越难藏了。2 L# ~* Y/ [0 a4 H1 W! a! e
! \# x( ? A& R8 k' b7 X3 X这是一件好事吗?
. x7 [& q+ j7 r/ Y. {' n6 c4 t2 N* c, e5 v# V+ U3 H- A
我觉得,短期内,这是一件非常非常好的事。6 O2 p3 w! P+ I, e5 v
5 r7 g( p* v: x/ O) g. s全球互联网基础设施里,有多少代码是10年、20年、30年前写的?没人敢审计、没人敢动、出了问题就打补丁接着跑的,有多少?6 h$ q- E2 b8 }: @4 v. _* ]
7 C# `6 c5 s' T: U& l& F- Q0 H. g这些代码就像一颗颗定时炸弹,埋在整个数字世界的基础里。 t: D+ i1 ?; U
* f: M, K! ], G* t; OAI能做的是,帮我们把这些炸弹找出来,一颗一颗地拆除。
% q! \; i1 f2 i, R: w l% k- ^3 c2 |4 k8 M& J
但长期呢?
, E4 j2 E) E. r) T5 j2 X6 g( U$ \! M. E8 u
当所有可见的漏洞都被AI清除干净之后,剩下的,是什么样的世界?+ d* b0 S! x+ ~8 s+ p
, G. R/ Q' E) S; Q c/ x5 F是代码质量极高、安全性极强的一个世界?还是所有攻击者也在用同样的AI,攻击的速度和防守的速度同步提升的一个世界?0 b3 P7 z- o f
/ P% W7 O: X: F& _- r" I) M我也不知道。. h' N$ ^ }2 Z# a7 j; F4 M
! e5 s. H+ K$ H; F) N0 X
但有一件事我特别想强调。( s9 f) n) {/ g% t. q, }* I. ~
; i3 U7 c) J* J
这次Glasswing联盟里,有JPMorganChase,有CrowdStrike,有Palo Alto Networks。这些公司,是真正的安全重度用户。
; W; i/ [+ v* @9 X- ~1 P. Q& |) P: c0 t# W
他们自己有能力挖漏洞吗?当然有。JPMorganChase的安全团队在全球排前列。CrowdStrike就是做安全的。
7 [9 v+ `) c- N; |6 E. {1 R Z, y. |2 p0 e3 i: p
他们为什么还要加入这个联盟,用别人的AI?
$ _9 M8 a# \- _2 Z( z( r" x4 i# V% ~8 x: l3 g" v" X0 _4 Z1 d- X
我大胆猜测一下:因为挖漏洞这件事,规模太大了。, o4 Z {5 i. X" Q" }3 f* f
+ U) ?+ Q. l, y/ t8 f% |! A+ K
全球代码量太大了。每一家公司,即使安全团队再强,也只能覆盖自己的代码库。但外面的供应链、开源组件、合作伙伴的代码,你根本管不到。9 i4 S6 n1 v; L p0 L* M$ c
& G, Y1 s& B( i2 I; n% a! yMythos Preview的价值,不在于它比你的安全团队强。而在于它能同时扫所有地方。
$ O; o+ v2 w0 L) ~1 E7 m5 J2 X8 o9 X( {% t* H
这是规模效应。4 ]8 a3 _. ], Q+ J
2 ^! o& M- g, [8 ~1 _就像打补丁。手工打补丁,你只能打你知道的那些机器。自动化打补丁,你能打你所有的机器。AI扫漏洞,相当于在每一个代码提交的时候,就自动扫一遍。
8 v' [" ~) H& [" R
; i9 R4 s5 L' ^+ w' ?这个规模,是人类团队根本无法覆盖的。
]. y' P1 k B6 k# C! A8 `7 w) l7 ~
, P/ S) Q" x Z3 {8 e& qGlasswing这个项目,还有可能往一个方向发展——成为一个独立的第三方机构。 Z/ m, L4 x* B D- Q+ J5 \2 y
3 E1 d1 N( A/ e& C( r什么意思?
, a8 \9 _- \! j O1 x; n
. n/ u- Z8 T! A& `现在它还是Anthropic牵头、11家公司参与的联盟。但未来,它可能变成一个真正独立于任何商业公司的安全机构。它的评估结果,有公信力;它的漏洞报告,有权威性;它给出的安全评级,整个行业认。
; T- \8 T s4 W* r: \; a9 e0 p4 \: s. Q9 d A
类似现在的ISO认证,但针对的是代码安全。, T; n' b, B+ v! s* D7 J4 w: H" z
0 |& B" {; D& d8 v* \* N
想想这个画面。未来的软件采购,合同里可能不只要写"符合SOC2",还要写"通过Glasswing认证,漏洞数为0"。6 y, o! l+ k/ x4 {& M
# h3 ]. s! o8 j9 J, K# e1 z
这不是不可能的。
) N+ m, s2 |8 |% t5 c: ~3 ]% [" x9 D
当然,路还很长。现在还只是第一步。但方向是对的。6 [6 \6 S. B$ b, I; I. C( s
( X5 c1 G7 ]4 K3 @( @好了,写了这么多,让我最后说几句掏心窝的话。
8 v- n8 ~' A4 [* P" F3 l3 U
6 v# b E" V& F$ e* R) U* A! G我这次看到Glasswing的新闻,第一个反应是兴奋,第二个反应是有点怕。; @. m5 x, p1 y3 c& n# e V$ l
- u7 m7 |1 h8 Z9 O0 [ I- Q8 }; n兴奋是因为,我真的觉得,这是AI在安全领域做的最有价值的一件事。以前我们聊AI安全,大家想的都是"AI能不能被攻击"——对抗样本、数据投毒、模型劫持。这些很重要,但离普通开发者很远。4 L! Q0 x+ ] F- S+ {% S
. J: t Q% D; a3 m. X/ B这次不一样。这次是AI在帮我们发现自己的脆弱点。, P: D9 l u2 N; U3 q4 L9 y
( t* t% n2 D0 f* F4 P9 [& I这种脆弱点,我们以前不知道,或者知道但没有能力发现。AI把它们挖出来,摆在阳光下,告诉你这里需要修。4 u8 ?2 z1 [ X) b# w/ [0 S
! t2 w- n f! R5 }这是AI在补人类的短板。不是在超越人类,是在帮助人类补上人类自己够不到的地方。 l8 C9 y( q6 x) k/ H! M
" A- e9 e: Q" A5 M0 c: k3 L
我怕的是什么呢?
1 q- M8 U% h# n6 r# c
0 k* |( Z& f8 V) J6 `& z我怕的是,这个工具,只有大公司用得起。5 x0 Y( v' M8 \; h: r7 ?* I- } f
8 {6 E: C1 ~6 {/ q; _% q- v2 n3 j. ^AWS、Google、Microsoft,Bedrock、Vertex AI、Foundry。这些平台,都是商业平台。Cloudflare这种中型公司,可能用起来没问题。但那些真正需要安全检测的——初创公司、开源项目、十几人的小团队——他们能用到吗?# I7 T8 E0 B4 l" |- d- @( N
/ n8 T x3 _. r- z9 ?" Q% n9 gAnthropic捐的那1亿美元额度够用多久?分到全世界的开源项目上,每个项目能分到多少?
0 `+ j& F; @* M' K4 M* D- \/ t. c! F a
这些问题,现在还没有答案。8 c r4 f0 _: @4 A0 X
4 R2 f, x8 ?' t: M
但有一点我特别想强调。0 }4 V' h% Z6 J. `. \: B# I, D
; S/ C0 u" m7 W9 o* h* _# U9 i/ n8 hGlasswing这个项目,让安全这件事,第一次真正有了一种"基础设施"的可能性。
& Z% D$ `0 z1 o6 W$ k6 O' r; g2 t! _ r+ n, m5 e
以前的安全,是奢侈品。你要么雇得起安全团队,要么买得起企业级扫描工具,要么你就裸奔。# I5 ^" _, k8 d# F: j" z# @5 G
3 ?8 p: \+ P1 w6 P
AI改变了这个等式。Mythos Preview能发现那些企业级工具发现不了的漏洞,但它的调用成本,并没有比那些工具贵多少。+ S1 h1 F- b% u, h8 B% f1 s1 P6 q* q" ]3 n
" I- q. _; X8 U- T N5 o当漏洞挖掘的成本持续下降,当AI扫描变成每一个代码仓库的标配,我们或许真的会迎来一个更安全的互联网。 [2 l" y, `! R7 m% v6 v
: [% y3 F' l. G+ E- Y* F/ f这一天什么时候来?我不知道。可能5年,可能10年。& r3 y% K N. R* W
; W! H( G L& s
但Glasswing,让我第一次觉得,这件事不是痴人说梦了。- g" u# S& v+ q. Q' Z
|
评分
-
查看全部评分
|