设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1507|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    4 `, T4 @. H+ S" l+ l9 Q3 N0 p% `+ f6 B: S/ \6 \  l
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    , d6 v# V- v" A, v: P) ]) Z3 V$ D* _7 ?4 [/ U! u0 D1 D( Y) A
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。7 a. k7 J; W) b

    $ ]- }3 ^* ?1 n6 q. z7 E* T" K" v2 m$ y  v" r3 N1 q
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    $ p" I3 ]9 a/ R) [; u4 ]
    / M( s4 W3 V# I6 G- t* s& y# k) y
    3 }. J. [- d# e6 [3 @  r9 ^
    ; H  G8 U' G9 B) b( K0 V8 @" w6 m
    ! d2 s; r+ L6 N# M! \3 p
    要么继续胡说八道。. S( v. I( p1 {7 t. o5 a# U
    ' m, c% s% ]( {( D6 e0 D" Q) n, u

    ( l5 c4 E& B# }, u8 a抱着试试看的态度,把同样的问题扔给了豆包和deepseek。7 A3 z/ O- d4 P) B9 P( X+ T; U) _
    & b3 K' _# x/ b* n
    deepseek速度快,结果也对,但是过程是不对的。
    9 `; T  r+ R" d
    $ k( ~, g6 c# c# P2 R  V& Z/ Z% s3 i' t1 s) q: l
    豆包过程比较绕,但是基本正确,结果也是对的。8 T& z& q, K! B
      U  Z: B5 u$ N3 ~- b
    ' p& C7 O3 j5 {/ m
    当然,都不如人推导的哈。/ A/ h+ C8 T8 f7 v8 J& m+ c  T. b
    , Y4 `1 F6 E$ D* V" E1 a
    " i* |: W$ h6 g$ C2 N9 ]& {
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    ) x4 C- c! \$ F+ s; J2 e/ o+ [
    / @4 l% S6 w  M, e! s( j1 ~1 r$ v3 A+ T3 D虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    0 z7 D; J. Z* Q% y/ m$ L: `
    $ l# I  U; g; q) ]8 ]) x( b4 E1 U, \( E- \  a! r$ H" r
    & `. h) _% N  w5 B0 Z

    ( W7 ?2 T) W( m9 l; H
    4 m! [! Y1 p/ F: x

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. / c4 Y) d  ^* `( M

    # D8 Z+ d2 e7 ]. B- K% L% }这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3689 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
      d0 `, K0 y3 t7 b& d. Z$ c( \
    4 F  M5 `/ @3 o7 l要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。4 n3 b6 c  E9 Y: X* ^* ?

    4 H# R9 R# w) }4 x. k+ J即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI1 H0 L8 D- m4 N

    " B: x% \0 [$ G. R7 l现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    ; `9 v% e' w6 I# T- o6 P9 n另外的一个笔记本我基本上只常规使用搜。( C) n4 d! d. _! M+ ]
    1 r& _) ?' n8 s: e+ U' P0 m1 J' H
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    7 小时前
  • 签到天数: 2851 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    ! u4 a' F# B# n1 n( t, O我没用过花钱的AI, 但是我觉得各有优缺点吧。
    6 v; X# e  N8 x$ H5 E/ \( \
    8 [, t9 c" O" m+ F8 y( f; B要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

      M+ @, Y: `& x2 P7 I& Z) Q: y' y, j' x  S
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 13:16
  • 签到天数: 2468 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:3 f$ w' d5 Y4 O
    2 m2 H7 q9 b$ D+ O$ C
    9.11和9.9哪个大8 b  `3 U2 C* a& `; Q9 D" m
    ChatGPT said:! w6 T' C- [2 O
    ChatGPT
    " C5 G" o4 b. e( g% q" p* ^+ y9.11 比 9.9 大。
    . `) E0 d& ?* t, L! Z) C
    * q. n4 l' S0 d( I9 K8 s原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:! ]3 k+ I+ Z: o1 L7 w

    ! d/ ]( p! R' R5 D% @3 m% g2 _: _9.11 的小数第一位是 1,9.9 的小数第一位是 9。1 |  p# H3 V. m% H3 i9 H5 [+ s) S: \
    由于 1 < 9,因此需要继续看下一位。6 `7 ~+ w, P- W! c$ a
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。6 F0 B# \, |7 i6 K* N; o6 \
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3689 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55: b" H9 i0 {9 z- @# X
    所以到底哪个更好?
    * S  Z+ E1 [  P+ Z8 N
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-8 09:29 , Processed in 0.064668 second(s), 20 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表