设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1519|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    % u, `. }: R  n) D" j; e% D# s, f+ D, n
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    # Y6 S1 P9 V7 q) m" M" S0 P+ C  ?5 M  h" l) `0 m
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。$ e$ X& [' y' w! @9 V, s
    ( ?, o2 t! M; L" S- R; d9 u/ Y% O9 U- h
    ' _4 b8 b' ^4 c
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    , ?. d1 b6 O, n4 i- i# e% A7 o( h- }. c

    / L9 T2 h' t$ Q& ]5 [7 N& E
    ; p+ s( w; g+ u
    7 R. w8 Z* k' s( o) _. K* H$ ^" r9 f: j$ V$ N! s( @# v
    要么继续胡说八道。
    , T8 d, |- Y, B! n7 ~& B
    ) y+ n& J0 K. d/ K9 w) v; Z/ c* V& Z- @6 ?
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    9 k+ [& U4 }$ `2 ]: f! s# a& h9 Q6 g! l1 N' u
    deepseek速度快,结果也对,但是过程是不对的。
    7 A4 n# r( O3 L0 M; W% s0 @4 w5 l, d# b/ z' T: U0 G7 s( D# a

    - G# [& C  l9 L3 v2 p* v豆包过程比较绕,但是基本正确,结果也是对的。
    * D6 s9 S" [. ?
    $ X6 H# h+ p9 W8 J- a( [) r& _6 u! ?% o/ Y
    当然,都不如人推导的哈。
    + Z/ a* M$ w, N; s% H! O3 A: I( |8 `5 G, i$ B; ]
    . q7 s9 H% p/ h: b. B
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    8 M- V$ f8 p' n2 t9 v4 L! H; ?+ Z+ ]' V% B2 u
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。6 J% S4 F' Z" S3 `# `
    ' _) v' J# h: _7 ^9 I. x9 N) g3 a

    ) {0 E% p. G; v
    , |9 h9 h  H0 O* v5 z8 I& t' E
    $ g8 {* d7 M: |* `* y8 j/ \7 j
    * [3 p6 l8 `0 D4 k

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    * W2 ^6 t$ v. u& a& y8 {# @4 ~& g+ Q8 o1 y; o. V6 t
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3690 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ' v* w4 G" ~( u! T# O' [- S* G4 E
    0 [% {0 D3 |/ N: _4 l: Y' @要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。5 b) H; Q3 p) E7 P- }& O0 X" ]

    2 E! ~3 _: M/ v1 M  ~( X即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI0 v5 s5 c4 y  y3 M( z, o, G& L
    2 `3 }; n) d0 m* E) J( j
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    ( Q5 _% c# z4 A: P) E$ |3 X1 p另外的一个笔记本我基本上只常规使用搜。
    1 H; c3 F# S, N! e' Y2 ?/ u8 }5 s9 f+ C% D. J
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    6 小时前
  • 签到天数: 2852 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43- l& l: x& Y( [) a5 y
    我没用过花钱的AI, 但是我觉得各有优缺点吧。: J2 c9 @* J, P3 d: Q) n
    # N5 d, q* f' }
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    + _, {4 n7 v5 b8 F% W6 |' L: Q7 r

    + v+ C/ K" {* L+ [所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    1 小时前
  • 签到天数: 2469 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:) ?/ P4 h, X2 h3 u5 U( B+ G" V

    5 R. z; m5 r6 d9.11和9.9哪个大8 m3 a& n& t2 t7 M7 H0 B
    ChatGPT said:( s+ W5 L  ^1 K& B- G% F2 w+ J( M0 f
    ChatGPT) i1 C: ^$ v6 c- Q, y
    9.11 比 9.9 大。$ A3 Z! L2 z9 y/ F
    ; j' N! l! m$ s
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:  e; O$ E/ r% g! g8 z
    5 q8 w  v( G/ r2 \4 ~6 z! r2 k
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    % y4 {5 Z: ]# g; D: \9 ]由于 1 < 9,因此需要继续看下一位。
    0 {/ r# w/ H8 g! R' C. _9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    1 H5 k8 C! q2 z3 n7 r3 i) m' v1 o因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 3690 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:553 N$ j6 R- p+ H) x
    所以到底哪个更好?
    / \9 ~5 D* N8 v  A
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-9 13:23 , Processed in 0.057373 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表