|
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑
. m+ L: p$ A+ W; h& }, C7 p
' I! _ J3 u; N8 z讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理' r4 n, Z. }5 T$ ?
' `' {5 q/ f( w) H: m这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。, p% p- w; q7 k. a
- u1 u& h- b. v最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。
( s) z6 p+ b- ?# D
E b# O* d. s5 a4 E* S给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth./ `/ O! @1 p5 `9 }$ N% t
/ Z7 O5 }- h! V+ }AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
8 n/ Y5 z( _ O) l我: A
/ A" |1 w/ D$ H, gAI: B
2 j5 v0 F$ j$ G. H7 j我: B/ H- X* {9 P7 j* x. C( W
AI: C
2 A# q, g7 q, C( e# `( U我:X6 y( O# ?/ a$ O# C' V6 r6 Q" a
! X. Z# D. N8 G% s6 P1 N! z6 N这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。$ X3 y% k; Q8 S
4 i5 G' v2 h! p% \6 e( o" ^
真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
2 ]2 i' L) A/ J$ D2 X: n, N* u# m我:Z! A! R5 x2 m! m& |4 R3 q3 [6 {6 i
5 S- b+ W2 E! T) G这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。 R, K! x6 l( e+ _4 \
. Z! Y% ]. F- m. Y而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。
9 Z5 {3 j5 A1 H+ d" q* r% K9 C: a, _" ?# B& c" u" _ K
有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。& t! u8 B, B! T) Q" d0 |: b5 \" ?
' ]& }0 B/ V1 ^1 z+ C' m/ F至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:
3 j$ |) T- H5 r2 Q) J, m+ T“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。: l1 H. X2 N- \1 @. Q
$ L+ d" E8 J2 ]9 ^
1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。
0 H2 i2 w6 X) l$ x- c2 n L0 f5 ~7 f2 D" W! @! F4 u: i7 w. f7 ^
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。 J" ?4 P) v7 m* R8 x
$ U1 h! n/ Q2 B4 g, y总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。
( e& e5 t* K5 Z0 O# _8 M6 Z |
评分
-
查看全部评分
|