爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 ! H2 d' y9 m; y3 e: E; N

2 t2 n8 P8 j# P% ^; z$ i遇到一个数学问题,懒得推导了。习惯性让GPT推一下。8 Y4 V+ t# M) q: V5 c6 ]2 @1 u

8 _+ g& c* s4 ^$ A; n: y最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
7 n+ _: _( j. G! I" x) H4 m& `7 _' |2 K
& x* Y) ]4 e# r% W
可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
7 F" }- j3 N  ~* A( q: D& N
) I7 b* k- ~" A4 M' M$ G( D- u% K8 f. a6 m* U- K
1 s# s; E9 }1 Q! t% c

3 b6 I( c# \/ E, j$ Q
' n' P2 H5 ^. Z- b# a+ j" a要么继续胡说八道。
8 N4 u2 V6 R; s! |  S# n3 k0 L  v0 d- |; p0 Z" Y
; Y9 h2 q9 V# p) n
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
& G8 K5 A# m1 c' ~
$ f+ }! W2 \: d7 mdeepseek速度快,结果也对,但是过程是不对的。% D8 O. B( z# M* o$ h7 F7 `

4 |8 q. z, `! d. a: O, m, F* ^% y  R; w, r5 ]/ X
豆包过程比较绕,但是基本正确,结果也是对的。) n, c- y$ f0 k) c: g# R

- _6 B1 W  v4 _/ j' k; F' l4 X# \  d' E$ t5 R5 F
当然,都不如人推导的哈。; O* u: Q" `4 t# r7 d
4 g' |) v- m1 u7 v- P
7 ~! O! S1 q# G, R9 V0 K; f0 {
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。6 u1 X6 |: U3 b# v. z" x3 I
# S' L2 r0 m& V) A
虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。9 w8 n; ?5 ~5 w$ I3 R
2 n9 R  K5 `1 E% o

+ I; U/ r; {# h- c% ], [5 l# R! B
& t  k7 y) B" o4 C
- S5 H8 ^2 w. h: @( j) M
8 V" z3 h9 ^4 w) [/ @7 D1 c
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
# |  i) f( W1 {' N% ]( p* Q
; \# N, f) H  x4 I这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。- d" z4 B% ~8 x9 Z- R, Q' C+ U  h& W4 {

4 v( P/ S  t- U: t要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。( @; J7 C5 E. z" G9 x0 @9 r

1 M% L3 G8 ^+ Z# p4 O% b即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI) _4 \3 s) h) Y" z3 q

' I: s# \( t0 s现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;& I- u$ p0 M# v2 e( s
另外的一个笔记本我基本上只常规使用搜。
; a& W" N/ z6 d; V3 ~
$ O5 e8 C) ?" Q+ y& q我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43
  v  `! I+ @! J/ p& D) K- Y9 Y我没用过花钱的AI, 但是我觉得各有优缺点吧。
" N; Q' g- ^" U4 a  W% f4 a6 X5 K2 c, X+ R
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。
( ?4 r# o1 n; ~4 }7 q
8 I# R; _# s1 P3 \$ Q
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:7 g6 k  a" b6 Z( L0 Y

3 i9 C3 _5 W1 a$ G2 B. c7 I6 ^9.11和9.9哪个大
! P& S! P2 m* h7 _) j. k/ ^ChatGPT said:" G/ P1 O+ H+ ~- ]. o) M2 {
ChatGPT, o% P4 P' \4 }! Y2 W3 f
9.11 比 9.9 大。" T; F( z& o2 d) {- V
$ ]7 k( a6 X: w0 ^
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:, I' T5 ?4 O, g& J8 U

# z* C* `# C5 Y) D9.11 的小数第一位是 1,9.9 的小数第一位是 9。- M8 \! l" R0 _! |! e# u
由于 1 < 9,因此需要继续看下一位。
& I  r% F) t+ G9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。1 `) x8 @8 N. h. k* I
因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:555 M; L" ?! l" J. {- M6 Y
所以到底哪个更好?
. |& i: v4 z% ^  @' v
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2