设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1810|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    5 K/ V' D% Y/ Z0 y& J7 b6 Q2 G9 k0 I& W0 q# d
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    0 W9 f+ ^& i* ~) {' W: m1 j1 d/ r# i' t3 ]
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。' D2 x3 K3 D& ]- ^
    - f% t6 B' Y( D5 ~
    7 J6 t8 H* N; b
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解- o. k1 w) a3 {: K: d. P

    4 l9 x9 u8 ^% y1 U' u4 W9 D1 g5 }: }) u! J1 C* \- J. i
      Z9 _, w/ w! i# o

    + A. @5 [7 z. ~0 r5 s8 c$ w
    / o0 Q6 ~" [* u要么继续胡说八道。  g6 ]* {% N# Q8 B

    8 d& g$ W6 @* i$ f* n5 Y) A# X4 |  M  g) ]0 s4 `& g$ t; G
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。# k# p* X8 c* ~3 K. `! L
    / a% b( `* H7 r( p* C- u: z2 ~
    deepseek速度快,结果也对,但是过程是不对的。5 e# j, p9 |0 d8 p4 M% m* u1 Q

    ) q; |* F! S3 F, ?/ K; q+ E  j
    7 C" n& l' o7 k- ]" A" n豆包过程比较绕,但是基本正确,结果也是对的。
    6 i! E$ L' U  G  {2 z: P" ^8 w, i9 T
    + L  U4 H& Z; e$ f! h: p! S1 e& A- H. h5 i# j% m6 K
    当然,都不如人推导的哈。8 M: i9 G7 ?3 s2 r
    7 F' |( U. r5 _& e6 ?7 O5 c  d6 u
    ; X! c6 f; W+ W2 U5 D. M
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。8 y" p7 ?  n5 M2 S' A
    7 S9 Y" ]( Y4 l8 V9 P8 q- \1 l
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。$ }7 l, ?, m: k

    - g# X4 h1 T5 m# `# P# w+ S4 I7 @% {4 J6 I. I# o! S2 \

    * u3 h5 H7 F) W* {2 I5 O9 s9 p( b  L6 \
      J9 A% P7 w) K) {
    ' m. t5 c0 a2 l* _

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    . q& b5 C/ Z9 Z) g' K$ a; A( G" g( d3 J; z
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3783 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    4 t  P0 N& O- C. T8 A# N" s; w' `; V
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。1 R! m0 m, o1 I5 U- m3 ^9 h
    . t' f6 P& w6 }: [1 B4 W
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    6 t6 r2 B7 w6 g7 |* c; c
    9 S, R- {5 `* f/ [) }; ~9 `现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;: @6 ]4 f8 P4 [' [
    另外的一个笔记本我基本上只常规使用搜。
    . s1 j0 @: {. [' G3 G  @6 @! S' e+ ?0 \, Y: B* u0 _# V
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    3 小时前
  • 签到天数: 2943 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:430 X* _8 P' n( K1 L  \
    我没用过花钱的AI, 但是我觉得各有优缺点吧。; O, x8 r: l# J( I8 C$ k
    1 [+ r/ E9 I0 D  `
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    , T1 g9 i. W+ a: O* r6 l( r5 |; v4 \
    ) H+ p+ R% y0 m4 V: @5 @所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2 小时前
  • 签到天数: 2554 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    ( p' y/ Y! o' w6 U+ E: ]( V7 m, O
    9.11和9.9哪个大" R. `' v& M6 L
    ChatGPT said:
    ! U+ ]! T( @' e9 E: |ChatGPT; a. n6 E/ z* `' Q
    9.11 比 9.9 大。7 w( z8 S& A% B3 ~3 K8 h

    4 G1 Y  r) j1 F/ s' j& h# y原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    3 M9 ^) J, a; t  A
    ! C) [. l6 S2 e( J; Y, T9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    % f7 k4 S5 j: m3 k0 q8 |% h由于 1 < 9,因此需要继续看下一位。4 b' O, H. v& E" E4 c+ D* A
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    7 M" E) o' j/ O% J因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3783 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    $ L0 S! |% F: B$ g0 {( p7 r所以到底哪个更好?

    + W- L4 Z4 S9 r' E5 A说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-13 05:14 , Processed in 0.054869 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表