爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑
1 h& j9 u7 O; b7 _8 B2 n! J. ^7 n; T. U% `2 c- z% \
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
. n' v# o1 l. F- u
/ @1 P% H% r8 V3 J$ b最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
8 }  w! l! B6 l& c% w8 c# d( w0 @9 B+ `" f

6 _) Y/ c4 d/ E7 s2 z; T5 ^可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
" R" i! h  M6 I8 C1 D0 f$ w
$ l4 c: ~' {, H& ^9 |  k" R& O
7 i; B+ E/ }, e; G. V0 t- y4 Q# l! f" B4 A- Z
2 a/ R* o/ ~9 t& l

" {# L6 Z& T- r2 E" l  R要么继续胡说八道。5 V( B5 I5 l# u# }- V& r- d3 s

! E& C$ _* }5 {2 ?% e8 j# x; U# I0 q( P, a# h: S5 \
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
% W8 Y# h! F+ o8 B: j: D$ \' k- n
8 b$ @+ [' V% o  P  W  w; C& M  z6 J1 jdeepseek速度快,结果也对,但是过程是不对的。
8 p- ^" T. U- |' E) S3 r6 U8 o$ ~' f  G  ]2 D" V
. B9 |" e# \9 y) V
豆包过程比较绕,但是基本正确,结果也是对的。
3 E5 i' I, `* l0 {; ]' x- G) f  s5 h
( V+ h# t, h( N0 P5 o
当然,都不如人推导的哈。
0 U) g, v2 e; S7 g, `! o
; {0 R2 @- j; d$ ?* z, T. K* K/ F* [: b, x9 b# B( p' D( j8 ^
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
) S; V( d' Q. Q3 M; g
0 b, u# ?6 Q* p2 ]虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。* o# h9 W* g. b% r) {, R: U

2 z4 L7 J8 r1 w) I5 E0 m* b+ |' Q, Y" E# _% g) C! a" f
' }: B4 x5 D: \

$ L# F4 h+ `; L- L& z  r: ?4 G% t1 \6 ]! t* K! F8 U5 p

作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. 1 [; Q, L: R% K* a( X$ x
% o; `! D, L- Y3 n5 _2 |% d6 x
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
; P% o- I5 v! N* Q  L6 q
2 ?- m$ D8 u' u+ a( _要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。/ O2 F( ]! _  Y! I$ t- k
$ L& [( B2 K* l5 N2 \
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI0 K+ }3 j. l9 ~6 A7 @* _5 f

4 `# ~5 G7 p& C7 ]$ p) V3 ]; ^现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;1 m% O% i0 G/ U
另外的一个笔记本我基本上只常规使用搜。
5 o+ `/ [" W/ d& S- n- L0 h# n2 c
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:437 A) y( O6 h) A8 s* x  h) R2 h
我没用过花钱的AI, 但是我觉得各有优缺点吧。
' D) S/ z5 h6 f" a2 L* |  l, w) q6 H3 D% ]) J9 N- \3 N9 O
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

- {  A9 Z  {: F% s* o' W; v. m
( e( k7 s% D/ \: e5 H4 k4 c所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:1 l* D& i* t* r9 i# \$ C
1 G5 u. k4 Y7 _9 l4 {8 k! f
9.11和9.9哪个大
& Q/ T  D6 m1 D, q" A7 BChatGPT said:# y/ \  i: D/ w
ChatGPT
! _  D  P1 D- V, S: i; b8 q2 z9.11 比 9.9 大。
) l- O# o& ]; X9 c3 ~. g% l& ]; `
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
; q* \3 d, J/ G/ O/ t  C& B, t
) _+ C2 z/ k4 C( b9.11 的小数第一位是 1,9.9 的小数第一位是 9。: f0 ^4 E; \  P3 D: B2 {
由于 1 < 9,因此需要继续看下一位。$ D0 ^+ e0 }( n0 T1 T' m& n9 U
9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。0 K: Y% m# G" i& ?4 `4 N# U
因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
* e, u( o9 t0 L# O3 \所以到底哪个更好?

( _# O; E% @+ w$ s1 s说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2