爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 . D8 ^0 m; G4 }1 M
% _; T9 x! ~' x6 ~
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。* l1 e6 T* T- s: A' f! W8 _5 J
; {5 X# R0 c5 H+ l
最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。% |+ R9 a4 T; W7 w  z' z! W4 u0 R+ \

+ s$ n. f/ ^% e! u4 L/ ]( N
. k3 ~4 u/ ^9 i8 [/ p可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解+ a9 W  [& y' k1 u" X$ x4 [7 V
; k" r/ S" Q) U; Y7 b" V. |

* A' Y0 _% b5 G1 k5 a) A8 n+ C: }  }! j; U0 Z4 |- _

4 _* f) b0 R- R0 [! L( H7 l  A7 U- k3 b0 ^& C$ q! v
要么继续胡说八道。( x' z: p6 V" z' n7 \

! Z# ^" m5 q  \
8 {/ I+ c. w8 s' X抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
7 P4 N8 N) `3 t  ]  v- q1 [9 [' y0 ?, {" j, i3 {4 _
deepseek速度快,结果也对,但是过程是不对的。
/ U( R% W" r! s2 a( U* W5 ^, p: }+ [1 ~* |% L* x0 z& M2 g

0 k* b. K6 [/ _: i) |豆包过程比较绕,但是基本正确,结果也是对的。* T7 h: |: g2 T8 O& J4 u
6 n7 M3 G( y( e% i: r. b$ P) G
! k7 d( `2 ^' ?  F' l& f4 H. a0 C
当然,都不如人推导的哈。# J9 h) W4 B! y
' g. g9 q% o6 @3 H( l& a
, V% {) c' k2 X2 I) C# `, B
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。# i3 r- p9 k$ A9 S8 W+ w% E

  E" z6 F5 C) q) x虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。# F/ l8 Y7 Z" r' g9 x

2 _1 O# Q+ M9 {, f/ V) R" T1 |% x% g
$ {, T" h7 l1 e; D  B% Z
! b9 G9 t8 d! }+ g4 H2 p

. D4 x: P( b% l" y
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
3 A( K, Q. ?8 v) D
) Q6 t  Z6 G7 d) X) R3 b- A这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。: T/ r- }4 T9 \& m

) [. O  U( ]% f7 z: \( C要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。7 m' ^' U6 d- k, B0 a/ O" v  t

: [" H/ a8 w9 E/ w即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI& p4 ]% @2 }5 z$ d, p. k8 |

! J# t; L3 C! `! H现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;1 @; |! g! \% Q" W/ R: g+ p
另外的一个笔记本我基本上只常规使用搜。
0 l& D( o& t7 R5 K0 j7 k4 |" m+ I* o% x4 n1 m3 P- {
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43- E8 Q' Q& m' H6 ?7 y
我没用过花钱的AI, 但是我觉得各有优缺点吧。/ ^: R5 l0 d& ?( T4 n

, u1 q* e) _8 n, w7 o& E: r# L要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

6 z/ O! H% x0 I  k) N, R* W% B9 x9 A, K  g
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:6 x- ~4 `3 _; q
4 }% c1 g* o. @$ S- I
9.11和9.9哪个大
, _6 f0 a  B( Z, X5 |4 mChatGPT said:# R% V$ P+ n! B* R6 @
ChatGPT
; w; x, d4 H3 _* F" A9.11 比 9.9 大。! E: Z* S& z- j' ?; t0 Y
; t- y; b4 [0 K5 b  p3 k
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:1 n/ N$ Q* i+ A: Y$ _( u

5 G8 X  {3 k: @! m5 K1 w& l$ y9.11 的小数第一位是 1,9.9 的小数第一位是 9。3 P# t# H8 t: T& G
由于 1 < 9,因此需要继续看下一位。
0 E/ O8 @& U3 y2 ~9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
. H4 \5 S: E  Y7 E# m因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
: \+ G' q) j# Q/ ^# u* q5 C; {所以到底哪个更好?
# S+ x3 \9 i  x& v  X# C- I
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2