|
|
0 q; j) D0 U/ f/ f5 C" J& F0 X
" s' d% ]3 v. ?9 V: l! b4 j( b这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。) _8 T5 |7 q" ]2 j( ?
* W0 C; X: h" ?! h+ S0 g9 f1 W; v最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。# \1 Q' H- X2 i# L! |* v7 C, {! b: O
% q5 n) @& g* L4 \9 e. U给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.: B" b% I6 b6 ~0 K
; ^# J n5 m; D2 b8 d
AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
0 Z; ?: T) m+ r8 \我: A
# J5 q* z/ ?% s7 ^! K6 iAI: B
0 b0 D5 w9 Z& I4 n6 ?7 G我: B
' q4 K, w% j' d' K$ q6 MAI: C( O$ e& S2 B1 B- `$ c
我:X
. s4 j* c6 V4 U+ R& z% k
. z: d6 P9 @$ b6 w0 K3 c6 F这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。 L+ y# i+ y$ S0 H0 u/ @
7 _8 T$ Q1 j3 Q9 |& t真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
6 ?) Y8 T/ W3 _% {' _* T) o% K我:Z2 D! `9 h0 Y) ^$ a* z9 t
7 w8 R- w5 B: n" k" i这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。
$ d! q6 }% z( M/ F Y4 Q7 c6 K# A Y! ^' R+ z, K- o
而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。$ t& }4 V6 M$ M2 n" u% P( _/ E6 ~
' N' y1 v$ P/ u9 K. K* y有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
. _) r' h: U% M; [7 L' [ V' p) w3 R
; H. L' d9 [9 E7 Y N至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:* S& z3 W% t/ m& v
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。
/ n" h) d! M* d% \. }/ g& f! b+ Z S: O N$ b6 E7 k0 y( n% m5 h! I
1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。6 {+ O6 X0 d# O- s- R8 i
( V+ Y" E9 F+ X* R- ~% q
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
3 e) b U4 {8 h M* g( ]; ^: p, \; M. l) S
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 2 c- y: }% b/ u7 j
 |
|