设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 858|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    1 S1 g/ b) y- S" Q
    ( Q: t- `& j" R遇到一个数学问题,懒得推导了。习惯性让GPT推一下。4 K2 y6 n: X* u% O! O

      q# T, W. |& s! a* [1 @最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。+ \' E1 n9 g9 ?* a( s. f' j) @
    9 j4 z' C3 S4 _/ [: F
      p" l1 i) k( w& E
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解0 o' r9 A- t: [' T! W% d+ l

    & T' v( ^: a3 b) N/ `. J
    6 D; y4 ?. K# O# I0 J0 J7 w/ Z0 F6 n5 E. P) k4 A) \

    # l, B' K0 l8 v6 {4 Q0 [: h6 J, p
    要么继续胡说八道。0 n* |% K7 R- `" M
    3 }8 b# g  F! I! N& W- S3 m

    : Z) ?! ^6 _  p6 o抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    . ^+ u8 C6 G0 E- ?* S: z2 Z  E6 g( J  u, R
    deepseek速度快,结果也对,但是过程是不对的。; a7 j2 T- V1 n+ A/ I  `5 @) R; ]
    ! h7 I3 y4 E. ~2 F' z6 R; F3 s1 B

    , C0 `  ?: c3 a0 g3 V* k+ L豆包过程比较绕,但是基本正确,结果也是对的。
    - o2 P7 k) y, a$ ^$ X$ X) M9 I! p- w) e& F$ E2 x( n: ?
    5 R% O2 q8 b7 g' z
    当然,都不如人推导的哈。
    ! i+ b5 z/ Z! j8 O$ u& B$ F# `" N+ Z5 R$ H& V  U: J/ ~9 j
    . p7 \  i0 e4 S6 e! [
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。! H9 o4 ?! z5 C7 N" w* {

    , K% t/ v1 W9 R1 P5 C虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    - l+ X9 `* p8 s6 Q) k- n
    4 b" I4 u% S' b9 Y% c& D3 s. S
    % [. _" P6 ?7 Z  c
    % t, \, a# o# L) M2 z7 c% |7 t9 G! Y

    - d, ?* N  k2 L- n8 \5 m5 K* o/ j

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. + _; j/ [2 x$ w9 q. t

    2 v0 d( x: Y5 @$ h/ U" y# h这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3508 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。; U6 a  W& w/ N
    4 g% l* p* c3 R" C4 d( P
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。. P7 m) r# F' {4 ?% C& L

    % J; r4 z+ E6 O' L0 |即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    ) b9 q) E0 D: K' g$ B) \+ |) _
    & W1 M9 ]) {! _7 u3 b' N现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    : G1 S/ \1 o; y$ D5 [" ^另外的一个笔记本我基本上只常规使用搜。) \/ d1 i3 P# v
    $ x" t: c7 r6 b7 L( T. o. c
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    20 小时前
  • 签到天数: 2658 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    . p# t, @% E6 M+ B- B# G我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ' ]  R+ p; j. d% ~
    ( v+ ?, D+ C: h5 [* |# `要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    " _9 S& x# A, g: m5 L4 y
    ' y; K; |3 z# D2 v+ G$ I1 P
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 02:19
  • 签到天数: 2311 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    3 G6 T5 Y: h: G& f
    ' g! a' \* O" a9.11和9.9哪个大
    $ B4 S' ~$ v6 Z& PChatGPT said:
    " R9 [* j/ y4 L" ]/ E( K" d- g1 G* yChatGPT
      U+ [! T5 M$ @% |. m( n9.11 比 9.9 大。' Y! l' y1 l+ C2 q; w1 b
    " k7 {: e, [8 w, v( R: e9 n
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:3 n: Y1 S  T: R  ?
    7 d0 }# L: a+ g( Y8 o5 l& D( x
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。3 M, ~  r# f2 g+ D+ a
    由于 1 < 9,因此需要继续看下一位。1 v* b, K+ |/ |  b
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。: |- P& e3 D2 w- K% [; K
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    23 小时前
  • 签到天数: 3508 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55/ f% q. t' Y0 M+ @4 c, S: B
    所以到底哪个更好?
    ; H0 O" z; g0 U% s1 c" R8 W+ U- B
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-12 23:24 , Processed in 0.040767 second(s), 21 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表