|
|
6 u7 [! V" S; \: M7 D
- {1 p+ d7 h; }+ a这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。3 s( A4 @" ^( H F
* P5 e( s5 W x, [3 L) c# U6 a9 U$ ]最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。
3 \" ]8 p9 J5 r- V8 e7 }" W4 t0 J6 }# A, \* ~$ P L) y* a7 u0 X# M& [& M
给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.$ t8 r4 |/ k- T$ v8 l' t
- D+ Y4 d( e2 V: gAI 回复表示理解了提示中的这个这个规则。于是有下面的实验:3 c- e, `2 Q# P1 F2 k/ t! r3 }8 i
我: A
$ g+ ~: a' Z X, c- z aAI: B2 f7 |- @4 Q! j+ ?2 Z& q- X
我: B
' J, i- ^9 o& z8 c a5 |AI: C
9 Y% b( f+ C9 q7 u/ y我:X% p6 g. f' A# N _. w: i
. {5 D3 h& X+ m1 Z% \6 e, i( t6 X这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。6 h+ G; ~8 {- y5 U$ R, O
3 `- J" O3 k; Y+ Q% \* { P- b真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
4 S9 ^/ U) b$ z/ f我:Z! ], A% ^8 T7 o4 u+ K
* a7 e8 m( s% }/ t# [; Y
这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。: y/ O# D: Y2 _( f
" A$ d& ~7 h) K/ i而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。
# }# C3 t, t2 p! M; A5 e9 B
- {! }; j7 {$ F8 p" p有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。9 ]$ p+ \- s+ W! s' ^3 f
7 O/ \ [! U* \' L4 W+ b" r. O+ P
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:& V4 i0 I& v3 ` N; r; }
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。
, [+ O- {8 G2 t7 n5 j
& Y' A) G+ j0 ^+ m4 T2 ^! V1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。
& z2 M' L4 c0 G+ t, h' H' k
F5 F% O3 _9 v9 r! M( [' Q, j$ b/ U2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
- b7 l; y( o) _' r& j
* H1 Z) S# y5 U. E% t1 y总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 H5 f: B! Q" S. h8 {
 |
|