|
|
本帖最后由 晨枫 于 2025-1-28 17:57 编辑 ( S) Q/ @, D- O+ k$ W
- _; n+ B8 k" a0 K/ _& B9 M0 H% R& kDeepSeek在12月推出v3,已经够惊艳,超出预期。一个月后,推出R1,直接掀翻了AI的世界。- G d: l! \% t
0 q& s& X. g5 X4 W6 q
当然,肯定有人要急着为DeepSeek找爹,“蒸馏说”就是这样产生的。
1 A3 _3 b- C, w! R) Q( i. r6 ~9 |; A% w2 K* C6 b8 b2 }7 O o0 [
如果理解没有错误,“蒸馏说”是指DeepSeek以Chat GPT为参照模型,首先用大量的输入数据激励ChatGPT,得到输出,然后把这作为数据集,用于训练DeepSeek。
1 l$ Y3 X+ S: B0 ^5 _
" Q i) z& U7 e- y- z. L! V这节约了海量搜取原始数据的难题,也大大简化了语言信息的数据化工作。' c5 \8 u4 B% Q
4 R( L1 k7 k5 X+ o这样的抄近路是有可能的。在工程上,模型降阶常常就是这么做的,但也是有条件的。
7 B) \' K( a8 |6 `# X' t% S, Z% E% a$ o9 b
这些都是小模型,输入的性质和数值范围都很明确,不管是“打格子”还是随机产生输入数据,都容易。而且有足够的数值方法可以保证“数据密度”,不会出现过分的疏漏。
- b) ?& S3 p4 g' i M' ^4 V( \9 U% b1 M+ |. x8 p0 t
但通用大模型没法这么做。首先是不可能确定ChatGPT的输入范围。或者说,那就是整个“已知人类公域知识”,有本事把这样的输入集搞齐全了,已经把Chat GPT的data scrubbing做完了。data scrubbing不知道怎么翻译,这是把公域数据全部梳理一遍,吸收进来,包括公开出版物和网络数据。
( J- Z+ w; o+ ~( e) \+ l/ Q) q( J3 w, t! \2 c
也就是说,DeepSeek可以把自己的大模型“蒸馏”成小模型,但没法把别人的大模型“蒸馏”成自己的模型。8 h( x! H9 w2 V4 L
1 t8 Q4 V& B) U3 u( v
第二点是推理过程,这是DeepSeek有别于几乎所有主流大模型的地方,肯定是ChatGPT没有的地方。“蒸馏”只能是降低分辨率的复现,原来的模型没有的数据,“蒸馏”是变不出来的。做习题时直接抄答案,但老师要求写中间步骤,就抓瞎了。一样的道理。
/ p* d) ]( i" \2 i; B# \6 U2 F, [. G6 I4 V; E ^+ D* r" ]- B
第三点:DeepSeek在一些方面超过ChatGPT,这就更不可能从“蒸馏”中得到了。针对性加强可以解释,但如何确定针对性的范围又是一个问题。
" L7 ?1 N" B9 i1 m Q O1 [8 I% \# m5 U' i X {' E! |
最基本的一点还是第一点:DeepSeek不可能获得ChatGPT的原始输入集,没法“蒸馏”。 |
评分
-
查看全部评分
|