设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1235|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    . |$ Q( a, U( i
    5 V6 w$ w; `& b# f遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    ! x& {7 n. Y% U
    ) ?; W% b( ~# R最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    6 C% X- A: A# }9 \  D; o, y5 q/ `) t$ L: ~9 C9 y' h+ n
    . y# `1 }& b: A+ J. P! A" K% E
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    " ]4 ]: y7 @! [% L& u/ {0 Q: `+ o* H7 m
    : O3 w6 s1 l3 {5 a
    $ G1 P, T! U; w5 [% ]

    ) o, U1 u: {$ d7 V* F1 j- o& b4 L* b& r( F
    要么继续胡说八道。
    6 ?+ b: p: N8 r0 n- \! F: S
    . ?# j- L4 V5 B$ |" Q- ~6 t0 s1 X: U6 P9 u6 F
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。; j3 j4 k% i# P+ d- J1 H
    7 ]4 w1 F' C: x
    deepseek速度快,结果也对,但是过程是不对的。6 [# t! b% ^( y. E1 }, c

    * @* i9 ?( K( G4 q' L- Z: f
    3 w0 A8 h# J4 y% X- n' @豆包过程比较绕,但是基本正确,结果也是对的。2 n7 F% F/ B2 d7 O) c+ b5 [
    & Y* _" l% b. t6 U: G# x$ U+ t% |- r
    ' a% C+ o/ U' A% Z6 n; q$ l
    当然,都不如人推导的哈。) g% B9 z, c, R' b2 p
    ! k8 x+ w' b* |  L/ m; o
      _8 _: Y! h% O5 U$ {! k# Z
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。+ @6 j5 M9 \2 w. J) b- H) k' d
    , [4 a; O8 J4 a7 P1 l
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。8 j; r" X% a1 G0 d, h+ H
    8 V7 j+ |9 \2 _) H

    ) a! @5 w" p9 Z" {. {4 [1 Y8 _3 Q! @5 w) I
    # s% D) ~( J2 }$ j3 d1 R

    , n' q9 \( U) h# D

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    . n7 n. S; J* h0 R  P% V5 d( w9 O+ E
    2 H$ E! G/ d! V$ |' f这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    半小时前
  • 签到天数: 3599 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    " x5 y8 {* B8 U) |+ N* [6 z2 v0 T/ X
    5 P6 s" I2 P7 Y. b# v& W/ N要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    $ P$ }( u* M, M, p( u
    * v7 i8 Z% ~. v, u0 T即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    : k8 ]% p6 e& Y9 ?; B9 R# m& H. C) u9 }! J' s0 o! \1 U
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;; c+ w  Y/ O1 G: z3 w, V
    另外的一个笔记本我基本上只常规使用搜。
    ; k6 G% j7 p' _; E+ U9 K. h0 v
    5 }  E2 x' R# P! w# O- I% {4 A我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:33
  • 签到天数: 2762 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:430 I, v& R. k! m% E$ i
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ' I0 E! x% X  Y4 f9 z  |; q# P$ {7 ^/ E+ F1 u0 v/ U
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    ) S3 x; L+ {" H! @" b9 ]4 ]

    " U' t1 L7 [, e3 @! x  c- X+ K所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    16 分钟前
  • 签到天数: 2392 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    4 K, \5 @6 ?4 y; O# k# L* J
    5 \+ E. z0 m" x/ {# @9.11和9.9哪个大: v8 m2 k; w( \
    ChatGPT said:1 C* E3 j& w0 ?  v/ N9 i
    ChatGPT; L4 J$ u8 d# A  L  ~& |
    9.11 比 9.9 大。
    ; e; @5 {/ r# |
    7 ]- e0 I2 z7 ?' p5 r1 t/ \$ _3 O9 T原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    0 B7 g1 p7 @, j' B9 X6 c: S0 X( Z& x5 R1 `; S0 y) y
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。/ ~( d. `- A4 i0 ^$ m5 H
    由于 1 < 9,因此需要继续看下一位。  Q5 M8 g0 C6 y) T9 o& J
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    3 [: R9 l, r0 j/ S  W" q因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    半小时前
  • 签到天数: 3599 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55" n& b/ o5 @8 c' b
    所以到底哪个更好?
    6 w) @$ R8 q/ V3 L& J  Y
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-8 01:03 , Processed in 0.039064 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表