|
|
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑 - o, x4 Q/ R, J! e. ]8 Y" `
; b, c) o4 p5 d$ ^/ ^" Y- b, C, l2 u
讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理
& a. n, ^, ?+ j
2 U- T6 I; f- l! d' [2 |. H& X这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
0 R/ l; P- }8 C& d* V& A7 ^4 ?& S
; ?$ J$ [) Z4 p/ d5 `- U8 {7 b: i最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。
+ O5 ?+ F$ u* J
5 p3 {# e2 N% y) f" v; _5 x2 y% K给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.
3 s3 E' r( G( i' j0 X* c% t) }8 A4 Z/ z' @
AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
5 Z5 h- L0 \1 N3 K! U我: A/ _6 i3 z \# y
AI: B
0 h4 _# j2 {* P7 ^, c我: B9 G# ^: D! E+ v: L* M
AI: C
0 @: I0 T; }5 U! j: L; N4 V我:X* O2 T, x! G7 W$ }
4 k) D# H) J l+ a这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。8 U4 c$ h7 T ?. s( p% E
# a* U) Y. `$ V& a, \
真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
6 M( q1 ]) O5 q, ]8 h+ ^, D我:Z2 U0 d- X5 U' w: H+ m; O2 V
) i, ^! [% l, u6 M( O
这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。 Z1 `: b& w7 C+ r4 d
" P( R% p0 n# n而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。/ ]$ X4 b- ]4 L: h$ g
( p) T! j; b; m
有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。& w0 T2 s H) B1 F# m2 q; v8 Q& a
% x) X3 R2 y( b# s5 e
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:
# Y) _5 I2 e- d“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。1 M% w) D8 }% b% w7 V
, ^: {3 |5 R5 j: c$ ?# B: b- D
1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。3 {7 a) m+ ?; m- `* s
; e b& Y+ J* o; o+ |2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
$ h( F' k3 p: N& m: {( h9 }$ f" t( N& }1 q1 D, n+ l
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 1 l# y2 t7 D. [. w) C/ z
|
评分
-
查看全部评分
|