爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑
0 c5 @- K3 @: i% n3 u  P8 N8 Y- m; {0 y! `3 q
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
0 u. K* |) `( x4 z* F: ~9 Q2 Y
0 p8 t1 u( u0 U* B最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
! t) `6 j% o# m- Z' r/ s9 }+ E1 X  D
/ E9 \- C6 [# R( `" u/ Q
4 k! u7 c6 B' Z& J, k/ B4 H; R可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
. U& [( W; k( o( P$ y0 E3 n
8 v" H' ]3 F# T! `- y) F( A
2 |4 R/ e- }' A- l5 z5 C1 C, D) U* a2 I7 H7 \7 _$ ]% n- T

9 m* a7 i; h6 O% U- M9 M7 J# D
* y5 `/ |9 r" E要么继续胡说八道。
" A3 N+ P" L7 o1 H! J3 v- X9 t; Z( t. |1 l$ a* V  u' ^! `! m" Z7 x
. [& L0 m5 y; J% G9 Z: T7 b( L- `
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。2 r" j* O' n. I9 S- r; H

7 v0 ^& G! M. u; V& p: u' E. [deepseek速度快,结果也对,但是过程是不对的。3 W; V1 Z7 q, \) }1 K
. q' z7 M3 M, x' u1 d
) ?* P7 S& H8 t* o$ _$ E
豆包过程比较绕,但是基本正确,结果也是对的。- I2 _+ b. k3 G" I4 f6 x5 m- n& p

8 n7 D; V7 h/ ~6 S  _, \% z5 R3 a( I5 o6 n- _
当然,都不如人推导的哈。
) ^: N1 j: v$ P# _* d4 @% }
$ j# H, Y# B$ t$ V
' S! O% @, ]$ g: _1 c  H! g2 a# @. q/ {过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
8 r# F2 m4 }7 F0 Y) V. `
" J9 u- L1 p  o+ d% ]: ?虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
3 X) N7 W( b3 p" G
6 Y: U- e0 {9 V3 K& R% E' e; F$ O
5 n7 U$ s. }7 ]3 P# `
& C; t# p* J5 a* Y4 m) L5 {2 t- Y8 c5 |# s& U& }$ Z

1 J7 w% [3 r# ~$ Q
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. 2 ^! a0 ~0 F6 Q0 I* o0 t  P
' F0 X2 D5 y. F; Z3 U0 A) w
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
1 ?: `2 c) s% O5 V9 v( [) K( _% H: k; Q3 J8 n
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
/ {! j# ^, p  ?0 p* n( R+ [/ G7 j7 r0 d- ^/ t+ ~+ z8 s9 c0 M3 a
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
: J# T' R0 ?, a/ L* r; \3 `( r& A
! L. v) f, Y% Y) e4 f+ P0 E现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;8 Q3 c; u& R2 {1 d' F
另外的一个笔记本我基本上只常规使用搜。
5 a* h# n  C$ q( q7 E( g& G. q& d) t5 f# B" x
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43* @4 g& h, v4 r6 ~4 |& J
我没用过花钱的AI, 但是我觉得各有优缺点吧。
2 a3 X8 ?/ U/ b) V: E! w# A) c
  D4 v7 D3 ^% c; ^: P  [要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

9 u. U4 q' }9 T3 V6 L6 f  e0 P! K3 m, C2 p
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:. ]  K0 w1 d/ N5 L7 i, R) _7 \
& Z# l$ x2 y2 D/ ~' M  A
9.11和9.9哪个大" F1 x* }: {+ [, h
ChatGPT said:
7 H# D. x' Y7 p$ R! q1 D1 Q/ ?ChatGPT
4 k4 C9 W  `$ m* }5 Q9.11 比 9.9 大。- h, B5 m! `2 b# k1 [. L
% Y9 R" _& `) Q$ e5 k) t, r
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:! c8 G" i' d9 |" Q8 C6 |: [) v
. A' V; |9 }, I4 \- H7 z6 N( g5 f
9.11 的小数第一位是 1,9.9 的小数第一位是 9。
8 o5 b, X: T% a7 B由于 1 < 9,因此需要继续看下一位。
& N" c* B+ x0 b$ a/ l( V9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
4 Q3 `2 t7 t# O因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
' C, s4 Y. |6 x# d所以到底哪个更好?
; d: b; I, O: L9 [
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2