爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 - R  y& u3 [2 t/ d- d9 Y

' F! E" L+ r( a) S$ @5 D; W遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
, [5 {" Q+ [; x+ K( m% N' v8 \# b" P" G; d$ D! e& m
最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
4 E- r8 _* n/ ?
- b9 V* `/ `4 x" b+ S7 Q1 }
: e# W) L" o: f% m  k2 H可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解$ V# F/ U2 N0 x2 M

/ ^) Y* j- D, A: `2 D+ _: `2 u, K& @( ^9 W0 v7 T
- {4 n/ t5 U1 }/ J+ c

3 v1 s' K- \! J, [  h% F4 |  V
# ^- [- @5 ~) K; X2 o( y要么继续胡说八道。
$ S. y5 S; g  X( U5 P. J& ?: E6 }- D
2 y/ V  W# h$ F# B) T1 K
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。1 L5 [9 `0 m5 X3 H

4 X+ J7 q  s  ~5 j. xdeepseek速度快,结果也对,但是过程是不对的。
* Z4 `+ _& s9 m1 {: M8 g7 t1 a
$ J- ~3 _! T6 N6 O" M# Y; t* K
# e7 c+ Y% b" t% l豆包过程比较绕,但是基本正确,结果也是对的。1 ^" P7 |6 `$ H' C

; T# g# }4 Q1 w* ]5 ?: J: X& e4 ^
当然,都不如人推导的哈。
1 e$ m* D+ Q, z# ?6 {" P
+ g; s  t3 b4 ^. G+ G1 e  v5 I% |1 }
4 Q( c% d$ X' q% q3 b7 f( G过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。9 v/ R+ a' ^* A- G. Y2 x( c
6 V! ~# ~) k0 p. o- O
虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。& U/ H: X( F. K6 h$ V" |8 r* f
( }9 y8 b6 N8 ?) q8 ~) J
2 ~1 U! h0 r/ ~) _: e' M

" p4 X# P! n# r: @; J( V2 B# n& t1 F; }2 i5 [) M# ~( A: D

/ H! C& T5 g4 n8 N% h( \8 z/ _5 r- F
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. % m& s$ m0 I% a8 _- a8 |) K2 [7 Q' l
" E& P, i3 H8 \6 a6 u' v
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
% m$ n  v' w/ V0 {! N! N* f; e4 b1 X0 M9 ~9 z, y0 g+ A+ A& o
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
+ R( q! e+ X' t8 a3 B3 {2 D; x8 M
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI1 f; T; |$ W0 t& ]+ c

% }( ?3 E% W3 m7 I, A. E现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
" d' x7 u( x, B' H另外的一个笔记本我基本上只常规使用搜。$ n+ U# _3 l! D7 r" [6 c) @3 Y

, j( P1 t) @+ z7 i7 E我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:438 L- I9 d- q8 t+ n( z4 Z2 G' z
我没用过花钱的AI, 但是我觉得各有优缺点吧。2 H9 t4 ^4 V" {+ f

9 I& _3 o3 i3 w  \% k/ \0 ?! k要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。
/ ^7 i* _" D& G" z1 q
  ~$ v7 R& t) V9 E
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:; j) {& N3 @' x3 N/ y: X* E5 [6 [

) P1 E# [( L2 x7 }0 Z8 r: E9.11和9.9哪个大5 U, Y9 S/ K+ O; P6 ?* x
ChatGPT said:' D* [4 ^. {7 P5 G
ChatGPT) K2 K1 j8 d- }$ J# l3 y  O" e2 f: j
9.11 比 9.9 大。
- @  w$ V! D* _! @5 ~) u$ M+ e# L
4 L- S5 D- `; _" n( b. w8 x( C原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
" W% O0 w; h1 a. y/ X! t' S: h; d: {9 C" r; d$ P; Q
9.11 的小数第一位是 1,9.9 的小数第一位是 9。" b9 u! }; h# Z! K; k
由于 1 < 9,因此需要继续看下一位。0 M9 a$ x2 u, H* X0 W7 x
9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
) k. N, O* I8 A) l% F因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
8 x' q- t! ?! ^所以到底哪个更好?

5 N) m' [, Q- T6 _4 ~. G说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2