WiFi 发表于 2025-2-3 11:152 y5 N; J$ _; w" _
应该是用的H800,不是H20
晨枫 发表于 2025-2-4 01:357 \, Z/ E! v/ ^( ^6 C: ~
两个说法都看到过,我都糊涂了。哪一个更弱?
xiejin77 发表于 2025-2-4 23:58
相比于绕开cuda的突破,其实ds自己设计的Fire-Flyer AI-HPC框架,更值得自豪。6 P9 e5 [$ V+ k: Y9 Q
: s( \; B0 x' S- O$ |* C/ {
在训练的尝试中有意绕开了 ...
晨枫 发表于 2025-2-5 14:13% M% A( ?: G; g. m
这个能展开说说吗?
xiejin77 发表于 2025-2-5 00:21
ds自己有篇论文,我找时间专门解读一下吧
WiFi 发表于 2025-2-4 01:159 E1 V) B/ x. t2 _8 _
应该是用的H800,不是H20
In detail, we employ the warp specialization technique (Bauer et al., 2014) and partition( B3 w" ]- }- U! S, S/ ]1 i
20 SMs into 10 communication channels. During the dispatching process, (1) IB sending, (2)
IB-to-NVLink forwarding, and (3) NVLink receiving are handled by respective warps. The. L |9 ~8 P- t# U! N; V. _% H' P
number of warps allocated to each communication task is dynamically adjusted according to the& A/ d& y7 A& F. ~
actual workload across all SMs. Similarly, during the combining process, (1) NVLink sending,% ?# g/ }, V6 v' F
(2) NVLink-to-IB forwarding and accumulation, and (3) IB receiving and accumulation are also7 {4 P2 o. x6 [, h: Y; f
handled by dynamically adjusted warps. In addition, both dispatching and combining kernels2 B% G# `6 Q# x- U9 N2 B/ e
overlap with the computation stream, so we also consider their impact on other SM computation
kernels. Specifically, we employ customized PTX (Parallel Thread Execution) instructions and2 r T' Q+ _0 N( X5 r+ u4 j
auto-tune the communication chunk size, which significantly reduces the use of the L2 cache" o% l# N4 U1 s$ B1 t/ K
and the interference to other SMs.
xiejin77 发表于 2025-2-5 15:08* k( P- F8 Z- [" J
晨大的这个说法,我查了一下资料和信源,正好我之前写过ds-v3的解读。感觉可能是有点偏差。
Parallel th ...
xiejin77 发表于 2025-2-5 01:08
晨大的这个说法,我查了一下资料和信源,正好我之前写过ds-v3的解读。感觉可能是有点偏差。2 u$ H# u; l0 m+ j* l7 m( p% n1 V$ r
Parallel th ...
晨枫 发表于 2025-2-6 02:13/ A6 S( x/ y" g: y U8 T+ ^
PTX是不是本来就chip specific?有可能利用大模型反过来把PTX写的东西反过来生成伪码,再针对新芯片的相 ...
xiejin77 发表于 2025-2-5 18:42( d: C. _6 l4 @/ `5 w
晨大好。
我的理解,类asm的语言都是和硬件架构和芯片的指令集深度绑定的。
晨枫 发表于 2025-2-6 08:50
多谢解释。那DS为什么不直接用CUDA,还要费事用PTX呢?
晨枫 发表于 2025-2-6 08:50' c4 V: \4 h ?2 B. E. @/ {( W' D
多谢解释。那DS为什么不直接用CUDA,还要费事用PTX呢?
唐家山 发表于 2025-2-5 19:51
应该是性能的原因。打个比方吧,操作系统内核一般都是用C语言写的,但是一些关键部分会用汇编语言来写。 ...
晨枫 发表于 2025-2-6 09:53
多谢解释。
8 B2 w ^$ A+ i
那DS如果把模型移植到华为芯片,应该需要重写软件吧?而且无法从原有的CUDA架构下移植? ...
晨枫 发表于 2025-2-6 09:53
多谢解释。6 }0 I1 x, v, Z+ Y; |1 b! C
# b- f! u3 P) e0 i& z% D! R
那DS如果把模型移植到华为芯片,应该需要重写软件吧?而且无法从原有的CUDA架构下移植? ...
xiejin77 发表于 2025-2-5 19:58 E; P1 O/ Q& b* O
这部分是DS用来做模型训练、推理的辅助工具软件使用的底层驱动,理论上说,效率可以接受的情况下是不需要 ...
唐家山 发表于 2025-2-5 19:59& q- G& j7 P9 ?- ?& d4 `! m5 S
确实需要重写。不过重写软件的代价并不像外界想象的那么高。显卡(计算卡)的硬件架构比较简单,上面用的 ...
晨枫 发表于 2025-2-6 10:04& m _( h/ V9 a8 \* Z$ A
多谢解释。1 H1 ?) K7 r7 k t
我用过的语言不多,除了常用的科学计算语言,工控语言用的比较多,各厂家之间基本上无法移植 ...
xiejin77 发表于 2025-2-6 09:58& `8 [2 I1 C$ y1 n# ~. K
这部分是DS用来做模型训练、推理的辅助工具软件使用的底层驱动,理论上说,效率可以接受的情况下是不需要 ...
大黑蚊子 发表于 2025-2-6 10:43
DS训练用的是自己以前买的A100/H800,H100有没有,有多少,印象里DS没说2 p7 K# {* n) u8 i! O
DS自己也买了很多华为的910B,事 ...
晨枫 发表于 2025-2-7 00:59
长期看来还是得上国产卡啊。
F# S h, H* l# V, k
不过美国也真是郁闷。中国这蛋糕没得吃舍不得,吃了,结果人家老母鸡变鸭了 ...
大黑蚊子 发表于 2025-2-7 01:03: k& E8 F- [' z+ e& V
看我这记性,说了一大堆是因为nvlink而起,关键东西忘说了
910B的单芯片性能据说跟H800差不多,但是多芯 ...
xiejin77 发表于 2025-2-7 09:31
蚊行的知识面是真全面。
7 T2 v; Z8 T& k# m0 S* m
RDMA网卡的品牌厂商主要有三大巨头企业,分别是Marvell、intel、Mellanox,其中 ...
欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) | Powered by Discuz! X3.2 |