|
|
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑
+ S8 C- F2 ]2 K, m8 y- Y8 W8 M( ^. {( A' A) P+ \) U7 C
讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理
, j9 P& h; U( [: y1 q6 _7 q3 M1 {) I
这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。1 _# d/ e' g0 j3 I- A: k
( b5 s2 j) @$ A3 t: P8 ^
最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。 n+ k4 M+ \, ^) H; c- P: V
$ V+ L6 E8 @/ j7 t2 m, g给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.+ S/ R/ u3 U& Q8 ^* X) }
3 z# h+ c3 Q( {1 L z% p, v( ]AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:$ P4 d- Z7 a6 Y
我: A
# \7 D! D# Z5 r9 K: ?- zAI: B# h+ C* b3 c3 E2 f, f$ x
我: B
3 d4 X. h) S$ Q$ Z& c9 PAI: C) v; l' }- k! W. A/ F
我:X5 E; n; v9 m$ }. z" ~2 G
h$ \) m6 @& b, {0 j- h1 {( f
这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。 `* g1 W+ ~) S2 g( |/ k
* l @/ w. y* V
真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:* P+ e) J* w6 _
我:Z/ J5 k1 C2 o) B7 r+ {
* Q6 j1 a/ r! F6 N* n
这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。* ]7 q, I' [( C9 C2 A3 W, E
! I+ g9 V5 f3 d! ~: \6 M
而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。4 R. z9 G- o- R' T# [# y
; b( ]' {9 _1 e# t. {( d2 T
有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
8 r) C: N& U3 k- Z$ a8 ]
* w. ]# u6 M: d I, F' _5 A/ F至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:+ e6 t2 L& o$ z( Y6 V7 Y( R
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。0 e# Y& w8 V; [; [: ^3 H$ v
$ K, y# {- j1 R: w) S9 H* L1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。8 u! h' R6 X6 F0 l, [2 }8 `% D
& A5 v. J, u3 P# D* i9 z2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。; E: L/ h. B5 M+ Z
, z+ p; s+ }) d- |: G总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。
1 I4 n8 g' _! ]! O( V9 S |
评分
-
查看全部评分
|