爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑
; O; x0 |' {7 ?2 _& |; R) I/ \6 ^2 y; Y3 L
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
' f$ G; u4 Y" H" a, W+ x
! p, s# C" ^! H5 {  _最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
+ x3 N! d9 j  `% f- Z
% ^6 T# G: g; a+ T& m, ~& k  N1 ^* ^1 c! C" a1 J& |
可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
$ w) K4 A+ h. m2 H8 C0 p8 S2 B1 g) a* E

) T4 y; O  P8 y: x- J
9 P; ?6 g" w( x" D: X/ O1 b; I" z7 V

* q$ P9 Y$ |( O3 X7 e. Y要么继续胡说八道。7 f) }7 r/ W3 T: q7 a2 Y

+ y$ G" I1 A# b6 L! o1 \5 V, h$ W& ?) m7 Z
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。6 j8 P7 T2 z0 E( E6 I6 B
5 J6 Y$ z  D9 _, B
deepseek速度快,结果也对,但是过程是不对的。% Q6 A+ w+ F5 c
7 Y) `/ f& c9 t+ @0 W8 ^# N

' V0 A/ h0 P" |7 Y豆包过程比较绕,但是基本正确,结果也是对的。
$ l3 ~' p" ?8 ~
" g5 a; x( l8 K/ E& z9 m5 N" r2 R3 [
当然,都不如人推导的哈。
4 F* e2 z) V9 C5 {+ b; D/ v0 c. W- g+ v5 O3 B2 ?" z
5 X( S5 \7 w) j' r' Q$ o
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
# E3 J- @7 J" y5 L2 C# j1 O( ]! S. \! b+ I
虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。$ W: \, k, b1 @- O, E: u( |) G- d0 P
( Y. ?) M% d( q& r+ s* H
' G/ e* R/ L+ b8 B& H+ V4 T

8 }8 u& ]7 \- l/ m& n- R- z9 _
- U' v* U% M+ @# G5 P; |, @7 K* ]& O( {* N5 Y, U, R) d8 _9 c

作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. " [  S3 M8 }& B1 b/ I. r" T; Z
$ F3 {1 y& f7 M  j
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
1 X' r% s- m4 b2 c6 P
4 l9 {3 T( S# Z; ]要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。, I9 S& V7 j% f7 H' F8 M
8 `; Y/ G) u" I1 E
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
8 ]3 p1 i, t1 }
$ _8 h+ v  p0 v现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
, F; F) F: Q  }. I) c# w$ c另外的一个笔记本我基本上只常规使用搜。9 p% V8 [! j0 s; j8 @/ a! O3 |
7 H- m8 V& _1 N. s" M3 |
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43
" R# {/ h3 x0 I) L- ~我没用过花钱的AI, 但是我觉得各有优缺点吧。
! b3 a3 B# X/ q  @3 Y2 Y/ [' k7 G
6 C0 V: i* G9 B4 q2 M要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。
( u, c9 Z% X" f3 i7 k! N  A
2 h2 {: G/ o  w6 H; ]/ h
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:
3 C) Q8 ?/ y- r8 X
/ _9 W3 Y- d( j4 R2 c. [% s9.11和9.9哪个大- V4 J' S2 B9 ^& R
ChatGPT said:5 y) ^5 ~  Z9 J
ChatGPT
  a  ~! E6 T! s, R! s+ Y9.11 比 9.9 大。
! T' c9 f# v+ ]4 m1 b/ I0 ^& A9 _3 _, z
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
) G! T2 V% ^( J8 t% ~" o( ?2 u3 j, U4 R
9.11 的小数第一位是 1,9.9 的小数第一位是 9。" O7 N0 K5 S' P/ n+ E3 n5 d
由于 1 < 9,因此需要继续看下一位。# I. \5 G# T" O- g3 Q7 ?
9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。6 K9 @: ~* v2 V$ m- ~' ~
因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
+ N/ h) t8 K1 O所以到底哪个更好?

& d) s. T; S% E. v; ]- [/ L说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2