设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1337|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 7 _. M% N! J2 Z2 Z! N9 z4 q' d

    ) ]$ C1 z/ ^& F+ \! O" m* Q遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    7 [: O) v; r8 y4 V8 Z
    - g) ^$ K7 f$ ?- X最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。1 _7 L8 s) S* r+ I; k$ d

    & d' z2 R- r" i$ K/ A0 \
    0 Q9 `" I3 v/ I) h$ i. B可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解9 P" Q9 s" P7 H3 ]. G3 J0 g

    " d0 m) w" X1 F! W- |- i! Z* y: y2 A% R1 Q; A
    ' Q: L% P* K, |4 z/ ~
    & M$ ]3 ]5 k: {) _! `

    8 b% k/ v& ^7 h" D要么继续胡说八道。
    5 ]. l4 Y, A# s9 ^6 @# G( I* ]; q& J% D% D. `- C3 O5 M
    2 K9 F7 Y" ]& B5 g3 s3 q6 n
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。' s5 c& h5 L. S0 _* o) x$ d8 n
    $ E4 c# @( B  }3 y% N  D
    deepseek速度快,结果也对,但是过程是不对的。$ n2 m( G) I* f

    * ?9 a2 w0 [( Y2 b* j8 V) d
    ! J- b& ~' q$ r( P7 p) ~豆包过程比较绕,但是基本正确,结果也是对的。5 Y: V, T) {9 l" n

    ' j) \" v9 e) C. G% G- O1 s1 X
    # s& S0 P$ d9 h. O5 m当然,都不如人推导的哈。
    ; B. E* g2 S' T9 A6 J2 P! u
    + Y% C) j5 p: q$ x3 P0 w  @) d8 `$ |$ P, q* k$ d- K- }
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。% W# L7 f9 w( C% e
    5 C$ E2 I0 A4 m( c0 S4 d
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    ! T: R* o' I* W/ `/ D2 d0 _3 I: {& H9 s4 M$ W
    * g2 T/ m0 B* p  D' y  u

    + b4 R; G: Y+ S1 W
    0 U1 F/ a2 P4 i$ i& ^0 Q% s1 s2 l+ C9 `/ P! N

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    2 Q3 d6 t  k* o0 f) s+ t# {7 }. U7 r' s1 _& R$ W/ W7 ]
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3628 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    , d8 Z9 _  K1 c' v2 J/ P
    , c% `6 ]5 v, L5 |6 z要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    / u0 A( ~% Y: g0 H0 b* h' ?: M# v/ n2 Z
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI7 W) m0 p: v. W4 d$ x: v. W
    ; r# }3 ^/ O8 R% w
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    6 U! X7 P' N" \% p! b5 s另外的一个笔记本我基本上只常规使用搜。
    ) L" }9 y4 ~( ?) `8 q3 D, v
    3 ~5 E; X# R' y6 {/ I. r# i我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    8 小时前
  • 签到天数: 2791 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    ! v8 d% x; x4 T3 x我没用过花钱的AI, 但是我觉得各有优缺点吧。
    / X/ y2 L( Z/ `, H  o$ A4 U" g1 A0 e) x
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    * c/ H; X- O; e9 Y3 M6 X
    5 y# t6 t; q2 L, x4 M( i- [所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    前天 02:12
  • 签到天数: 2416 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    8 ]) u3 E9 h) i- v1 y
    2 q; a4 G# Y( |5 l0 k& D% t( Q9.11和9.9哪个大  s% O& h4 K1 c$ j+ ^
    ChatGPT said:2 l8 T9 N5 O0 r' D) g/ l
    ChatGPT
    5 P# a$ C, V( B5 s6 G# H9.11 比 9.9 大。
    . L& N1 e9 c; A- e8 c$ P* |9 C0 b' v6 T/ u/ S; N2 t
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    ' w, ]4 E5 r/ ]+ }& w. Q$ J, i8 O( B7 ~! u8 @) _
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。/ ?% n1 `( V, ?$ A" H1 ?. F9 ]
    由于 1 < 9,因此需要继续看下一位。
    # n$ P: Q' d, l  v1 W& T# w3 r9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    - y" r1 E( w. T- L- e" x因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3628 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:556 k4 E2 }$ D/ q, y' D  @# e
    所以到底哪个更好?
    . D1 c% |2 `2 N- h
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-8 09:02 , Processed in 0.032796 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表