设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1812|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 * S9 S- J0 U& u) g+ j7 i2 p

    * A, `% O* F+ S: b0 L遇到一个数学问题,懒得推导了。习惯性让GPT推一下。  g1 o& e/ I" L. Z  S+ T

    / A6 m% c; C2 [. t9 V最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。/ x" B( q" u" U* }) \& A) D3 d- y

    " E1 ?/ |' c6 V: v
    5 n0 x+ G' W( Z; x' t可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    ' E! W# O+ T( r! f% h
    # z( `* P, N: M9 Q+ X" E/ H* n( ^, F% H1 A* Y* f) E" Q* K2 q

    - x3 E- c( t2 T
    . u& i6 g- }' ^; M" I( ]5 }
    4 [* l) u( K# d- J要么继续胡说八道。& [7 l- b4 o  r3 }) D' ~! _

    * v, @2 H. g6 R* _" x' E
    4 y  X- l' R' y, R: K4 M, H抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    . @" p& Y& M) a" h' r4 a; }* u1 m0 W  E/ z4 v+ @6 ~
    deepseek速度快,结果也对,但是过程是不对的。$ q+ J2 K8 G9 C1 r; m
    # w2 Y$ b4 v7 L2 b% \" Y, A
    % F# {; L2 s' v$ i3 ^$ X
    豆包过程比较绕,但是基本正确,结果也是对的。7 I- B# C5 E& M7 I$ e/ C3 A/ \
    : d& A  o' n; c; |; _, e
    6 s, ]5 p' f  a9 n; p( z+ j
    当然,都不如人推导的哈。$ F0 H; L: R* ~& Z+ [5 O
    6 u  x0 Q" T0 U8 X, v( c

    . z9 I7 i% h! M; J4 j2 V) H过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。5 S8 Y8 L+ G7 @6 i6 Z* U
    " s1 i( J* ~; K* s* n6 _
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。5 B! i6 s4 q( X. J3 _
    $ ^  Y* r. t/ F. ]- i$ c

    ; |. @$ H! [3 ?  l; m' P( c$ V1 H- Z

      f1 M; g, N0 A: t. ^: o
      e0 u, B; v& c+ t! x9 F

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. 8 D! T# O' T$ c- t  L3 w9 T
    0 q8 r# N$ G, h
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3783 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。* C7 X3 \. a- `0 g; j$ Y
    ; Y2 J+ u: W' V1 c& y' w9 b' }
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。. m! M3 u- S- H
    7 P' A/ N! J. P! [, q& l) V% b; N
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    ( ]; Z/ ~( r. q6 w; \- x
    & a( z) U2 c7 G! Q" c/ C/ i现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    8 o' F! k! y  I) z; [另外的一个笔记本我基本上只常规使用搜。/ {7 Q3 j8 }* t3 y- ^& `' ^

    ) @$ C9 q$ b' n: B8 A) H我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    5 小时前
  • 签到天数: 2943 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    % n0 h2 T5 B5 m: q  a6 O3 `! k9 d8 X我没用过花钱的AI, 但是我觉得各有优缺点吧。' H  b: W* I; t- c$ J& C/ h

    - c: o  G% q! c6 a9 P要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    . m! z8 T5 {# F
    ; N! X$ D/ k, Y' H; w! Q' n所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    4 小时前
  • 签到天数: 2554 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:' F* W# L! E$ L6 Z; K
    9 ]2 G* ^, D6 M5 [9 G! g3 j
    9.11和9.9哪个大/ i% {$ }- B  t
    ChatGPT said:
    9 o  R2 k. |0 u' ~7 m) f9 wChatGPT
    9 ~& c$ b9 X; x: [  s0 w/ B9.11 比 9.9 大。
    ; {2 t* L1 t7 ?, }) A- n. T* ~4 D
    5 E8 ~- s9 N# \6 S原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:5 f, t% l1 F, \
    / u5 W- s: A0 D" j
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    9 D* `. ^& E0 D" L; K$ D$ x3 x由于 1 < 9,因此需要继续看下一位。
    % a4 s, ?8 r; ]/ x( a- M9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。1 {% q. n3 s2 o, S4 S6 R7 n  D
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3783 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55* u& U5 G( J5 [6 O/ ?! G$ V2 Q
    所以到底哪个更好?

    , i' j' ^7 s, [" X* ^, {' T说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-13 06:48 , Processed in 0.072845 second(s), 17 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表