设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1981|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 ( I. h) a' O" D3 U" J! G9 @3 \: X
    0 U& i" h& A6 \! c. e" L2 d
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。9 |3 o" s$ |; ^% I( L, R
    # M6 F9 r" J, E7 U
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    ) I* T  O+ L5 n5 D
    + \9 h- P2 \# I% m0 s: [9 `% f  m. H* D8 |. {' D  R
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    6 _2 R) y& M! S, Q6 V& a. U
    : N9 @" g' I& G0 y+ Z
    * ]* f7 ~. k! n/ T+ c. I$ F. D3 X( t8 P+ b: D) S

    ! n: r" i' N' |* C+ L, x& g8 D1 m* B6 h9 e; k
    要么继续胡说八道。
    ' c4 {$ r4 G8 c8 e4 N3 z2 X3 L* c) l( u8 R
    & c+ M2 L& F$ ?! O% @
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。9 }" o$ N7 f. Q$ x: f  U
    9 t& O8 U  I: b; {' }( h+ ]
    deepseek速度快,结果也对,但是过程是不对的。
    / Q' ]& o! A  M! K7 ?
    - U# s; O* T- ]" d
    $ _# A; ^4 \. W豆包过程比较绕,但是基本正确,结果也是对的。
    , s+ v; X% }( C0 T: g* ^5 S8 M7 M. L
    ) O1 }/ K% H2 L6 R9 c# M  @* E2 I! a6 o% F7 g
    当然,都不如人推导的哈。
    * i* @5 i6 Q+ y. _! B7 t
    7 g* i  r1 K. c) U! H% b5 w; {- \, f& }1 [
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    ! Z7 Y% t, S. s
    + `& N  O, S# K+ r" h* Q' U1 p虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。3 o% h: m$ z! p+ g  n# c
      e* `! P# j8 Y8 M( q
    # v/ D" v4 I. q9 W1 W

    0 O$ a! o' q- @3 a! T; H5 s8 h/ N. F

    ( D' U2 F1 j& W( a$ L& w, k9 d- j

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    , U, @8 [/ }1 Y) m$ Y2 ?4 @1 _& n. @2 c# V' z
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    半小时前
  • 签到天数: 3830 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    . s; B" l5 ^; v
    5 K* s3 s% _' q/ L2 D要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。5 B# `3 h3 i! {: b

    9 o5 D3 M; e8 d7 q9 h7 v即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI$ K- I" }" ]( o( o# X6 ]8 [

    5 @) O3 ?  S: @" i( ?现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;5 n/ `" f) ^$ p0 Q
    另外的一个笔记本我基本上只常规使用搜。7 }5 s3 g+ h8 H

    ' ^/ G' `2 N) l; l$ h我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    29 分钟前
  • 签到天数: 2990 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43# f* o7 J. X6 q9 V6 N
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    6 k# n9 H9 b1 }" C2 @* E* D3 [2 }2 G
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    4 {6 K5 p6 @$ ]( ~
      H) j/ T! r2 K) g9 p& l所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    前天 00:21
  • 签到天数: 2590 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:8 H. f/ e7 T, K4 W! \) {

    2 H6 T/ j1 d6 V- c" ]" X8 Z8 N8 k9.11和9.9哪个大  T( h: C9 A5 J' m1 @0 [" s2 o
    ChatGPT said:# c, s2 i4 L, l7 q) c' m5 t$ ?& u# c3 @
    ChatGPT  h/ N3 O2 _1 T$ A& q( O
    9.11 比 9.9 大。
    - l) C8 m# V0 j# [4 s' W4 r: k3 |9 o6 O' J. q' }
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:& e) a6 g1 m$ v
    5 [0 S2 l: [) e
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。9 z5 M% s6 i3 ]4 {3 U
    由于 1 < 9,因此需要继续看下一位。/ n; W- q+ @4 @9 V
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    / C6 E9 z# p( H2 p. g因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    半小时前
  • 签到天数: 3830 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:558 ?( y" ]: |: c/ s2 s  l# t8 O
    所以到底哪个更好?

    1 j  w- b5 Y$ u  ~4 \8 K说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-29 00:40 , Processed in 0.056293 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表