爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 - g" P& V* \: Q* I
, r- M3 d* i. L: }9 N% C$ M( I: X+ b
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。4 B; ~* e, X" _

% q/ d5 i% b" |& G# R. L5 g最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。- _/ b% g8 d$ O* `5 p( l7 }

+ f; g, M; Z; a, R9 P' h
  h2 u/ N8 X, L1 \% i可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
) G& l& H6 N* u+ [' W6 R! j: g* H( H2 u  N( t0 y
+ J% i! h- V2 }, w
: b  Y# D- B4 F, `# }3 E2 t! L

: X+ I8 d/ Q& W. G7 ^2 U; Z# h! ]& D$ H
( q8 O/ `$ A' J0 n  U: l: ?要么继续胡说八道。8 X. N% H* e( |- @5 F6 K$ V

- h4 ^6 @$ W* O' V7 S
* ^9 K- a: u( l- J6 ^$ o" Q' |抱着试试看的态度,把同样的问题扔给了豆包和deepseek。: {; _5 l# E3 X, G1 Q+ X

" s& @7 I; F+ d8 ?  o3 Hdeepseek速度快,结果也对,但是过程是不对的。
# u6 W" Y8 g9 E. j0 \& H
9 W) W( a0 R8 \1 @* n' g5 Q; O4 o1 M$ I6 f. r
豆包过程比较绕,但是基本正确,结果也是对的。
% N: r/ b3 s+ r$ `$ W( T" S/ Z1 s, r/ m7 T! p
, X/ M% C. t; q8 _
当然,都不如人推导的哈。, p3 c+ D, T& P' q5 s* V

6 H) A2 k) G6 U3 }2 ~/ J( q1 u1 d7 n( {' L
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
( v5 D7 l3 ~6 D! F! ?8 U% T# l5 @' H
虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。7 Y8 f1 k% E' R* W( T" ]$ M4 b
: ]2 l, A& Y. s

! C& k. O+ U  x( N& j2 w! d' u9 G! O* b! O/ n" u

7 s7 I! B2 @; ~" [0 B
( t5 b  G( X. H( J+ Y+ Z
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
0 A- i$ w  L- t6 w8 R, }) i4 R0 b. h1 N% `; q
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
/ M) J2 D5 m7 w6 I  r4 m0 X% b5 _' @8 y+ @7 t7 e
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
" M& K8 x* m5 [1 L
& ?( N1 e( f  D5 z即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
3 z7 h7 w: v( n/ h: n  J& |
0 |4 p- o; H: F3 c2 Z5 _现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
8 h0 m( W$ y% a  T9 @/ {& y另外的一个笔记本我基本上只常规使用搜。
" t* j( Y  C0 D" ^# ~; p) g* C3 _+ p3 F
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43
. j) o; I: l' K5 t/ N" q- Y我没用过花钱的AI, 但是我觉得各有优缺点吧。
# G( P9 ~3 F* W5 Z$ R$ w& y6 ^! D* h) P5 _" r
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

+ r9 s. M. J3 s( ~
9 O: a' q2 _& x3 q3 [所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:
6 e+ n- P! u. R% H% ~
4 U% ?2 z* }* ^  |" U+ X9.11和9.9哪个大9 i2 T: Q9 ~" l' D) S4 i( ^
ChatGPT said:
% |5 S% d) M$ m% b3 x6 {6 CChatGPT
* n: {" h  q+ s4 o! f& |9.11 比 9.9 大。
" ?8 x2 t! L8 |0 ~0 {7 b6 O
0 R1 n/ z! a# F3 G1 h" i" p5 G原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:3 @* t5 b8 I1 S' s5 b& |
- p) }: p( ^0 T9 J6 t
9.11 的小数第一位是 1,9.9 的小数第一位是 9。
! ~6 L4 {, C& J由于 1 < 9,因此需要继续看下一位。9 d" n  ^6 n5 J
9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
2 {. X8 U7 L; Z8 S* G+ M( f因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
! q$ p* e2 V. G所以到底哪个更好?
( _) e" |( ?" _8 B+ E
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2