|
本帖最后由 晨枫 于 2025-1-28 17:57 编辑 - \" K( V; g+ P! l+ E' g" @+ Z: d
& [" N" K- {" P# ^% q k: b
DeepSeek在12月推出v3,已经够惊艳,超出预期。一个月后,推出R1,直接掀翻了AI的世界。
; I/ L. |% Y. k0 m+ A1 h
2 C5 [- z5 G: [9 B3 K0 m, `当然,肯定有人要急着为DeepSeek找爹,“蒸馏说”就是这样产生的。* _: ^9 ^- u; L, \. g0 z+ Q
$ O' P. p$ r p如果理解没有错误,“蒸馏说”是指DeepSeek以Chat GPT为参照模型,首先用大量的输入数据激励ChatGPT,得到输出,然后把这作为数据集,用于训练DeepSeek。4 v) x! W7 z) Y* z) R4 N
" Q* Y: u. i6 j) e! g
这节约了海量搜取原始数据的难题,也大大简化了语言信息的数据化工作。
5 U5 _* f! f+ t2 J2 N0 q6 s, G
" y& t8 ~' A9 J4 w! d这样的抄近路是有可能的。在工程上,模型降阶常常就是这么做的,但也是有条件的。
* x2 [+ V5 W9 c$ n9 N+ i4 |* a
" r# q, c1 D" D这些都是小模型,输入的性质和数值范围都很明确,不管是“打格子”还是随机产生输入数据,都容易。而且有足够的数值方法可以保证“数据密度”,不会出现过分的疏漏。6 d- l0 _2 ~) j- g
; n9 Z) D, X: M( a; K" ]5 k
但通用大模型没法这么做。首先是不可能确定ChatGPT的输入范围。或者说,那就是整个“已知人类公域知识”,有本事把这样的输入集搞齐全了,已经把Chat GPT的data scrubbing做完了。data scrubbing不知道怎么翻译,这是把公域数据全部梳理一遍,吸收进来,包括公开出版物和网络数据。1 ~: ]- \; o! Q4 k! Y C! t& y
# \6 f- y& a# I1 P; t$ A也就是说,DeepSeek可以把自己的大模型“蒸馏”成小模型,但没法把别人的大模型“蒸馏”成自己的模型。2 l& Q3 Y% f$ A9 T" Q0 E* w
. @+ N, M* w; C/ N+ Z& T) i! Z第二点是推理过程,这是DeepSeek有别于几乎所有主流大模型的地方,肯定是ChatGPT没有的地方。“蒸馏”只能是降低分辨率的复现,原来的模型没有的数据,“蒸馏”是变不出来的。做习题时直接抄答案,但老师要求写中间步骤,就抓瞎了。一样的道理。
/ o' a5 i) G9 r5 Z
/ W/ l: F* P" c" X( ?8 }第三点:DeepSeek在一些方面超过ChatGPT,这就更不可能从“蒸馏”中得到了。针对性加强可以解释,但如何确定针对性的范围又是一个问题。# C+ U2 r3 }$ I+ L
A6 O* F5 Q3 \ F& [
最基本的一点还是第一点:DeepSeek不可能获得ChatGPT的原始输入集,没法“蒸馏”。 |
评分
-
查看全部评分
|