爱吱声

标题: DeepSeek R1全参数模型一个可能的本地部署方案 [打印本页]

作者: 沉宝    时间: 2025-2-20 15:41
标题: DeepSeek R1全参数模型一个可能的本地部署方案
DeepSeek一夜爆火,现在联网服务拥堵不堪。当晨老大号召自建farm的时候,本人开始认真考虑本地部署。 KTransfomer的报道也在第一时间见到,并设想了一个以此为基础的装机方案。然后呢,就“铲后抑郁”了。如今很多内容都在网友[大黑蚊子]的记录(链接)中讨论过了,但具体的装机方案大概还有一些价值,还是写出来吧。% V. k$ q  i. P& ^8 C* W! b
% i' S; X: c/ \- ]* R
DeepSeek R1原版是一个参数量高达671B的大模型,虽然比之其它頂尖的人工智能模型在硬件要求上已经大大降低,但个人部署全尺寸模型,依然难度不小。为了便于在低端硬件上运行,出现了一系列蒸馏版减少参数量(以 Qwen2.5 或 Llama 为构架,参数范围从 1.5B、7B、8B、14B、32B 到 70B)。另一个思路是参数量化,例如1.58bit和4bit。一般来说,LLM训练时使用高精度(例如 32位浮点数),而推理时使用低精度(16位浮点数或者更低)即可。1.58bit是把这一趋势推到极端(只有0、1和-1三种状态)。有人试验了DeepSeek全尺寸模型的1.58bit的量化版,结论基本可用,有时候说话可能有点“冲”,圆润平衡上差一些。4bit版效果已经相当好了。至于[xiejin77]担忧的量化影响反馈精度或者稳定性,理论上有可能,但实际影响需要大量的对比实验加以证实或者证伪。
: v6 ?. A# q- ^4 m
  _( m0 S  v1 Q下面讨论具体装机方案。首先定一下目标。目标用户:个人或者小团体。鉴于这个模型现在典型的应用场景都是文字的输入和输出,跨网络合用的难度并不大(因为不需要占据太多的网络带宽)。单机,预算定位$5000左右。应该属于一个人咬咬牙能冲得上去,小范围集资(10人以内的那种)能够轻易支付。目标性能:DeepSeek R1全尺寸671B的4bit量化版,输出速度与人的阅读速度差不多即可(个人使用,太快了没有必要),约 5-10 tokens/s。这样的预算,这样的目标,显然需要KTransfomer技术加成才有可能达到。饶是如此,也得按市场最低价加DIY省着来。4 m/ o8 `( _1 k) u& A4 k

3 ~$ ^: W: Y8 V第一步:内存的大小。将模型的参数全部放入内存是必须的。如果还用硬盘空间扩展出来的虚拟内存,那速度肯定慢的不行。DeepSeek参数精度16bit(BF16)时需要 1342GB的存储空间,4bit量化版所需空间为其¼,再加上程序和操作系统所需,512GB应该可以了。这么大的内存,普通PC机主板肯定不行,要上服务器的。鉴于当前DDR4的内存条比 DDR5还是要便宜不少,所以选择DDR4。
8 [! a; H& a' V" L1 H- _, h/ M4 |6 l! B' ~7 V, S/ c7 x
第二:CPU和主板。CPU我选AMD Zen3架构( Zen3是DDR4的最后一代)的服务器芯片EPYC 7C13, 64 core 128 threads, 市场价仅$700+。它与正式发布的7713结构一致,频率略低,有人怀疑类似于Intel的 ES(工程样品)。主板支持Milan的SP3主板即可。唯一要注意的是内存插槽数,根据DDR4单条内存的容量大小,要能够插出512GB来。! n) ]$ e8 T* n0 u% @; D

4 X$ b) I# u5 X( Z1 f9 |" l; J
  d/ \8 i/ _9 z( ]3 d第三:显卡。双3090或者单4090。4090不好买,用两块3090大致能抵上一块4090。
1 i) W, ?) R5 b. T/ d) o+ J) ~# }& K3 K+ y' |2 _6 }# s/ I
第四:硬盘。这个要求真不高,如果机器仅仅是为了跑DeepSeek,一个4 TB
) `  [( g# s' G0 l- O' \9 r(或者两个2 TB)的nvme就够用了。(想当初我在爱坛上发记录推荐固态盘时,一块4TB的才$150)
; A7 y# x- F4 P2 F. {( a1 n+ k0 T5 i  p) r) i- Y+ T& g5 S
其它:说3点。1)普通PC机箱。2)散热避免使用服务器的暴力风扇( PC机箱也缺乏服务器的风道结构)。如果散热量大,考虑用水冷。3)如果单台大功率电源太贵,可以用两台小的给主板和显卡分别供电。如此需要双电源同步启动板或者同步线,但那东西淘宝上也就人民币10块钱。
7 ^, l& Y9 m; h: `5 s9 u: b: d! W+ r" ]( Y& |5 u
最后汇总一下。数字为能够淘到的大致美元价,可以接受二手货,+、-表示向上下浮动不超过15%
7 ?# p2 q2 ^$ D0 E* |- Y7 |8 F3 |5 O7 V8 f
RAM 512GB DDR4       1000+, `" H* h) p+ k; {/ x
CPU 7C13或相当           700+
) ~+ y1 H/ s, s* o3 s6 N主板(单路即可)         5008 l4 `) t! A$ T7 f
显卡 3090                  1000- ×2( h# u% |  x0 j7 U7 y  A
固态硬盘                     200+1 A+ q6 u% q6 q5 j; c" M& b
其它 机箱、电源、散热器等
! p$ E, E! B5 H7 o, g: s% q7 C) u7 u. h' M

作者: 大黑蚊子    时间: 2025-2-20 16:27
本帖最后由 大黑蚊子 于 2025-2-20 21:55 编辑
! S" b4 w  Q% r6 j4 f2 d5 N' ~8 v* ^7 m2 d
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径了7 I/ C7 E) L0 _$ S7 j9 w4 O
在硬件选型上面我倒是有点儿不同意见,鉴于章明星他们在0.3版里使用amx指令集加速,那么支持amx的Intel至强可扩展CPU应该是要好于AMD的EYPC的,具体来说现在Intel最新款是6代至强,退而求其次选择四代或者五代至强应该也满足要求。章明星团队他们的硬件好像也是双路Xeon 6430
2 w% }1 E0 |2 M6 \: d但是这个成本可能要比你说的EPYC要高不少,但总的来说应该还在可承受的范围之内0 A4 G5 O/ z& T, m0 W* q( P
显卡的双路配置好像不是特别必须的,主要是4bit量化版需要14g显存,所以如果有一块3090先用着应该问题也不会太大,实在不行多买一块也可以9 z8 |% N- g* b7 Y8 O; x) r0 p
6 ]: q# U/ e& W( P6 X
周末去华强北转转去,看看二手服务器有啥准系统能够直接上手的
作者: 马鹿    时间: 2025-2-20 21:42
我看到了国内AI的商机。。。 攒小配置的AI模型!
作者: 马鹿    时间: 2025-2-20 21:43
关于方案, 我直接问过deepseek。。。
作者: 马鹿    时间: 2025-2-20 21:45
大黑蚊子 发表于 2025-2-20 03:27
/ `; e6 r6 u6 }- z8 M5 V, s说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...

* R3 u; }* D. V" T4 O真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
作者: testjhy    时间: 2025-2-20 22:50
马鹿 发表于 2025-2-20 21:45- L/ }8 W* n& @4 z
真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
- z2 |8 a* `; M$ {. ^& G
社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,
作者: 马鹿    时间: 2025-2-20 23:19
testjhy 发表于 2025-2-20 09:50- y/ k5 G7 \$ F
社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,

  p4 Q5 b% T4 g( N* V6 p- g攒了以后干啥呢?
作者: testjhy    时间: 2025-2-20 23:32
本帖最后由 testjhy 于 2025-2-20 23:41 编辑   ^8 \: v# O+ {8 ~, r" G' `

0 `# l/ |  }, J$ e# M8 G0 \1 L1 k2 x0 b2 F6 J% Q
这是大华股份根据国产芯片的一体机,估计是华为提供的方案供各家贴牌
作者: 大黑蚊子    时间: 2025-2-20 23:38
testjhy 发表于 2025-2-20 23:323 D! m1 ^  C2 w! x, C8 }7 N
这是大华股份根据国产芯片的一体机,
5 L9 j# Y6 ?4 J: q/ `! X* m( W4 \7 k2 ]9 \
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型; \7 H* G% A* G4 m/ ^' [) z- z
我在自家电脑上搞了一个7B的模型试了下,真的是不太行% k. w; V1 h  ~8 C0 w7 c
我估计32B和70B也都不太行7 |$ @" V" H& j" u+ D
这个帖子里讨论的应该是直接上手671B的满血量化版,1.58或者4bit版本,这个据多个信源反馈效果挺好的8 u8 V$ f! C- A/ p2 b/ f! v
: J! X4 W! T% `9 J; s' G2 n9 b

9 `; @# S5 r9 y  k不过这个单子我倒是可以拿着去嘲笑下大华的朋友“你们钻钱眼里了?搞这个文字游戏骗钱”
作者: testjhy    时间: 2025-2-20 23:42
马鹿 发表于 2025-2-20 23:199 u+ w" [/ T1 r  G" _, a
攒了以后干啥呢?
) P& U' m$ Z7 a. R, ?  \7 N* M& \
想干啥就干啥,吃喝玩乐,
作者: testjhy    时间: 2025-2-20 23:45
大黑蚊子 发表于 2025-2-20 23:38. _5 ~% k/ s$ B% j! A
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型2 l" }+ J. j' X$ L1 U' U* c& v8 q
我在自家电脑上搞了一个7B的模型试了下, ...
& u! l+ p' T% R9 N- g. b' t" y( {
找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,
作者: 大黑蚊子    时间: 2025-2-20 23:53
testjhy 发表于 2025-2-20 23:45
; Y! Q7 s8 W+ }" H5 c找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,{: ...

! z; O3 K/ `1 `$ O+ |3 a7 _, @3 x我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的
/ }7 ^9 O3 q4 ]/ V打听了一下Intel的至强4代CPU,现在全球缺货,嘿嘿
. v6 r- o2 w& a  z1 ]5 }去华强北看看有没有QS版本,可能一块就要6000人民币至少
作者: 马鹿    时间: 2025-2-20 23:53
大黑蚊子 发表于 2025-2-20 10:38
- T- i. I& R" _; I大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型
4 T3 l6 n* Q+ k$ q+ i我在自家电脑上搞了一个7B的模型试了下, ...

1 f9 S6 ^# T$ w7 i; q好奇你攒个模型做啥?
作者: 大黑蚊子    时间: 2025-2-21 00:03
马鹿 发表于 2025-2-20 23:53
" {$ o1 a8 L# j# w好奇你攒个模型做啥?
& f8 R6 u0 `9 z, E  h' l" r

; _8 P9 e& b) C4 h) O玩啊,好奇啊,这很可能是通向新世界的大门) c2 j) K5 W" N0 Y0 r4 i
有这个条件的话,干嘛不玩?3 ~% j) i4 P& C7 o, l
  h5 u1 Q% k% |" s# D
现在大部分人还在懵逼状态中,只是知道个大模型的东西,具体怎么搭,个人知识库怎么建,私有服务怎么处理...好玩的需求多着呢
) p8 g) \( [) `, h
. L- D2 m/ v% TDeepSeek的出现,极大降低了大模型训练和部署的总体成本
  j/ o6 s& |) K# b9 J1 C$ lKTransformer架构的出现,打响了极大降低大模型部署和私有知识库服务的硬件成本的第一枪
+ [. a( S* J+ w5 |4 N! C* G& S. b# ]( ]2 g2 H" A
这种能够降低90%成本的新技术出现,大概率后面会蕴藏着10亿级别的新的相关应用和服务空间* O- X8 {6 S4 X" l2 j! Y/ l$ C' p
玩的过程中也可以吸收很多其他的知识,认识其他稀奇古怪的人,包赚的啊
作者: 沉宝    时间: 2025-2-21 00:16
大黑蚊子 发表于 2025-2-20 16:27: j: Y9 u* n5 X2 D) w
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...

  N/ B- x. H9 a  c% Y这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所以在预算有限的前提下,应该尽量省下钱来加强GPU。当然如果实测一块3090够用了,那更好。, h( f5 w: P0 `$ d7 A

! _1 v& C: g( {6 O5 `' Q2 O对比EPYC与Xeon 6530方案。Xeon 6530 2023年底发布,还比较新,主板加CPU的折扣有限。而EPYC Milan则要旧得多,有大批从数据中心退下来的二手货可选。即便有amx加成,但架不住7713的核多,单挑的话还是应该7713赢。而双路7713的话只不过比我的原方案多一颗U的钱,其它几乎不用改。个人认为CPU的第一位作用是保障参数全部装载在内存,计算加速还在其次。章明星团队的努力是充分挖掘手头现有硬件的全部潜力,amx加速是新版才加上去的,可见并非重中之重。
作者: pcb    时间: 2025-2-21 01:42
大黑蚊子 发表于 2025-2-20 23:539 l8 I0 l: |3 O$ x3 r  b7 T3 W4 j
我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的
  `) m' d, @  Q# c$ e打听了一下Intel的至强4代C ...

+ I& @/ h7 O+ ^' ]"至强" 是 Xeon?
作者: 马鹿    时间: 2025-2-21 02:29
大黑蚊子 发表于 2025-2-20 11:03
* _8 O4 C1 d. W4 Q玩啊,好奇啊,这很可能是通向新世界的大门. L8 J/ q5 Z/ g- J
有这个条件的话,干嘛不玩?

4 b0 w4 g2 @3 T7 c握手, 我也是,就是好奇。 也同样认为这是通向新时代的大门。
作者: xut6688    时间: 2025-2-21 05:30
在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。至于本地部署的蒸馏R1,我试过各个版本包括70B的,效果都不好,和原版差太远。我自己玩着用本地部署的模型做了一个RAG应用,最后发现蒸馏R1还不如原版的QWen2.5 32B。
作者: 大黑蚊子    时间: 2025-2-21 09:06
xut6688 发表于 2025-2-21 05:30
% A# M2 k! j# A8 j在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。 ...

  s6 Q* a# S7 ^* h, s, S所以为啥盯着671B的版本呢,就是这个原因,其他版本的性价比其实都不好。
/ `9 n  D0 X" ^3 y/ C# p/ y+ X' f+ [' n0 N, c  {
目前有海量的本地部署满血版DeepSeek的需求,因为太多的数据受商业或者法规的限制不能上网,这个部署的整体过程是有很大市场需求的。
+ c$ v0 Q6 n; c0 S1 x
% v1 T' W9 Y/ F- h- EDS和KT的诞生,不是拉低了对算力的需求,而是通过降低成本做大了整体算力需求。+ h; [2 b$ k6 Z! ^

( U- }" M: k- x# @6 v- X4 S, r1 Q2 |3 `而且部署过程中的调优和配参,踩过的坑,以及反复琢磨和资料学习的成果都是自己的。
8 Z* @7 e& K/ D+ o. e& H5 }5 y/ y" s* `8 L; I& S# k  R
再说了,都是二手硬件,搭完之后上闲鱼卖掉,亏不了多少钱
作者: 大黑蚊子    时间: 2025-2-21 14:10
沉宝 发表于 2025-2-21 00:16  z/ `. x2 j1 n: w4 i% [7 n4 v
这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所 ...

: e* ]2 F! {/ T. ?* j$ X2 M/ ^我建议你再看一下KTransformers的相关资料
% ~" K+ T$ h/ d4 l$ H  J$ R8 Q5 N这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依赖CPU/DRAM带宽,从而降低GPU需求的降本做法。, r6 o# k% e+ k* P0 H
DDR5换DDR4的话,带宽砍半,对应token的数量就要起码减半
  w% K0 Z2 _7 E& |9 H% x, RCPU的带宽再砍半的话,又要丢失速度8 C' x9 B, q2 z/ p
如果CPU/DRAM带宽不够的话,甚至3090可能都喂不满,无限下降螺旋在降低成本的同时会极大影响使用效果( n- d- ^( o$ t5 L4 |3 {
对于咱们来说,跑起来不是胜利,能够最低限度可用才是核心需求所在啊
6 S$ K; D2 C8 L4 u7 H# ?我觉得起码要搞个输出4-6token/s才行吧
' x# q1 t8 A( r; ?按你这个方案我估计可能1-2token都悬
作者: 沉宝    时间: 2025-2-22 00:10
大黑蚊子 发表于 2025-2-21 14:10
, o: R5 g( `( E6 J我建议你再看一下KTransformers的相关资料
' ?- J, h! D( }2 c这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依 ...

. F( Q* ?; ~/ S; @) x欢迎讨论。
, Y8 e+ y: {+ A- d( c# Z
* W0 z  s0 P8 R, l4 g9 c4 q4 `5 G首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek是基于MoE的,回答某一个具体问题时只有部分参数高度活跃。KTransformers可以动态调度,把这部分高强度计算交给GPU(好钢用在刀刃上),剩下的则由CPU完成。所以CPU部分对系统整体性能的影响不如GPU大。作为佐证,上一帖我提到了章明星团队在几次版本迭代更新之后才把amx加速添加上去。
5 @' o, ]2 _0 V9 Z0 f" a, x9 ?9 ~7 E! o
CPU/DRAM带宽对系统性能的影响不是简单线性的。老实说,我没有咱们现在讨论的这样大的系统的实际经验。我只能根据在台式机上看到的现象做一些外推。Intel的12代和13代同时支持DDR4和DDR5,DDR5内存下整体成绩要比DDR4好一些,不过差距并不大。至于到显卡的带宽,我也可以说一点。我们知道目前大部分显卡的插座都是PCIe×16。外置显卡时,因为各种原因往往不做16路通道,比方说仅仅实现了8位通道。那么这个PCIe×8的显卡游戏性能下降多少呢?绝对在30%以内,常常也就10-20%。) e$ [, j" A1 E0 ]* x

4 s( u% F, @7 ?0 h以上这些是我没有简单照搬章明星团队的配置,而为省钱做了一些变更的原因。
作者: 大黑蚊子    时间: 2025-3-10 22:25
沉宝 发表于 2025-2-22 00:10$ e: W6 ~  B3 T
欢迎讨论。, L+ r3 {9 P. @( a; \5 o

& |3 E6 h. _, ~, E9 I% Q. G首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek ...
% \( N7 c4 p: P
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本2 z. }# r& _9 p% }
显卡用的是3070M 16G,环境是Ubuntu 24.04.24 N  r  L+ A- {7 F0 c
输入大概是10不到一点,输出大概是5,勉强可用
1 ]8 O% Y8 i# ~& @5 h. j因为都是整的垃圾配件,总体的成本大概不到4000人民币
- W$ _5 \8 L2 N- Y! ~* c/ O
. z' G7 j$ A3 |# O6 n& O我估计如果他能够用DDR4+至强的话,应该可以到7-8的输出/ R& K1 ]% V' t  F
如果是这个速度的话,个人轻量使用已经没有特别大的问题了
作者: 数值分析    时间: 2025-3-10 23:42
这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的, A8 m9 q' g( D. U
https://www.pmtemple.com/academy/17340/- g: u2 n3 L; Z! O) R. H8 }" n2 a

作者: 孟词宗    时间: 2025-3-11 01:50
大黑蚊子 发表于 2025-3-10 22:257 l, s) X/ l# C  X( H/ B  M9 E! i
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本) j' L  n, Q8 f* S/ H# \! j2 s9 s, j+ Y
显卡用的是3070M 16G,环境是U ...

6 R% k; H( F2 t
1 A8 p. e& {. G0 U6 A- H我觉得别对Q5以下的版本抱太大希望。Q5 以下只能说是能跑,但效果实在不敢恭维,很多情况下出来的回答都不是 AI 幻觉,而是文不对题。在决定投钱搞硬件前,还是建议先化小钱租个服务器,下载不同的压缩版看看效果再确定要用哪一版,用什么本地硬件。
作者: 沉宝    时间: 2025-3-11 02:12
大黑蚊子 发表于 2025-3-10 22:25
: p' q' H( y# v( N) L4 `7 I刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本6 m- V/ [3 `& m9 B% P) y" w1 Y
显卡用的是3070M 16G,环境是U ...

5 J) V9 z  ]+ ?6 t! D这做得很厉害了。点赞!
作者: 沉宝    时间: 2025-3-11 02:14
数值分析 发表于 2025-3-10 23:42
: F$ i# c3 k* N! c; \( A& T$ n* G. l这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的* ?0 g/ W5 p8 F& S9 y5 k( f" z
https://www.pmtemple.com/academy/ ...
9 D. v* O5 h6 i7 x/ p; l
这么多案例,很有参考价值。
作者: 孟词宗    时间: 2025-3-12 01:39
有 512 GB RAM 的话,基本 Q3 以下都可以跑。Huggingface 上量化版不少。例如这个:https://huggingface.co/unsloth/DeepSeek-R1-GGUF 从 Q1 到 fp16 都齐全了。Q1 的几个版本甚至只要 256 GB 就可以跑了。
1 Q' a* R1 O0 \! W& v
5 i9 Q' q# u( w. E$ D: V但是,量化版压缩了尺寸,同时也压缩了功能。个人感觉 Q5 以下基本都是渣渣,回答大多逻辑不通。
作者: 孟词宗    时间: 2025-4-15 10:41
大黑蚊子 发表于 2025-3-10 22:25/ `% h9 p3 ]& g
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本0 F. X. I8 j) Y3 Y3 k
显卡用的是3070M 16G,环境是U ...

- o7 k6 d& A$ }5 x5 E6 Z6 v. v性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是有16条内存槽,按 Intel 的说法,每个 CPU 可以到 768 GB DDR4。两个就是 1.5TB (实际 HP Z840 号称能到 2TB),正好可以跑 DS-R1 671b 完整版了。
作者: 雷声    时间: 2025-4-15 11:18
孟词宗 发表于 2025-4-15 10:41" w2 b) d7 S* j- l- R+ r( q. L, a! q
性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是 ...

; n, k! `. v+ \https://cloudninjas.com/collecti ... 40%20will%20support,Reduced%20server%20(LRDIMM)%20memory.
3 M* G- K5 H- d- r3 B9 ^3 K" _, b6 r, e- B
The HPE Z840 will support 4GB, 8GB, 16GB or 32GB DDR4 Registered.
) K5 M4 T, }/ j) D, L' P: W) oThis server will also support 32GB, 64GB or 128GB Load Reduced Modules (LRDIMM). 0 U: J% p& k/ H1 Q0 B
The Maximum amount of RAM the HPE Z840 server can hold is 2TB (16 x 128GB) of Load Reduced server (LRDIMM) memory
( z' S# x% ^! M8 E/ J5 ~( P. [% N& \6 C) B
LRDIMM 128GB的话一条要1400~2000刀,16根的话。。。。 好像也不便宜了。
6 p& d0 L1 J/ z2 z, DZ840倒是不值几个钱。
作者: 孟词宗    时间: 2025-4-15 11:58
本帖最后由 孟词宗 于 2025-4-15 12:01 编辑
# k, V4 e  n. L2 S. H
雷声 发表于 2025-4-15 11:18
9 }9 n7 `  ?" j+ Q3 I! @https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...

6 \$ a/ n( t2 K2 O1 G
$ F/ I0 ?3 [9 c! s! y1 Y' Z9 u; x没那么贵,Amazon 上一条才 $239。16条也就$3,824。1 \: t4 B* u+ Q

: J3 ^% u( }% a8 J" d' ]https://www.amazon.com/Tech-2666 ... cp-nq_eMQV&th=1
1 T" \' P' y& I8 c+ D6 k
4 b# d: c1 ^. g& n# i$ Z! f1TB 的kit 稍微便宜一点, $1,908, x2 就是 $3,816: https://www.amazon.com/Tech-8x12 ... amp;sr=1-1&th=1# }! Y/ q' {$ F0 @) b( Z3 @* l

5 }7 O' [: N: g/ B: k( b  i& r但如果上 2TB 的kit 反而要 $4,319 : https://www.amazon.com/Tech-16x1 ... ctronics&sr=1-6+ Z6 v) U$ q3 D) n* v' i
9 d* @, Q+ O1 ?/ b4 g
5 G. g3 [% v7 D( B: {
当然,真要上这个,最好买以前和卖家咨询一下,这些 RAM 是否可以装 Z840。我估计 Z840 出来这么多年,大概最多也就有人装到 128 GB,毕竟这不是 server 而是个工作站而已。
作者: 孟词宗    时间: 2025-4-15 12:14
雷声 发表于 2025-4-15 11:18
- C1 H. r1 J# z8 L# W! |) Whttps://cloudninjas.com/collecti ... E%20Z840%20will%20s ...

: Z% A4 s: O* f  e, Y3 [+ M( p/ P2 j; |9 y9 C) E
顺便说一句,如果只是要跑压缩版的话,我在另一个帖子(http://www.aswetalk.net/bbs/foru ... read&tid=161700)里已经说过,如果有192GB的 RAM 就可以跑 IQ1_S(131 GB), IQ1_M (158GB)(假设没有显卡加成)。
: k8 K; @/ Y# g! i& W6 C; }; s3 t2 V! T/ [4 v! Y; n. m
不要显卡的话,搞个Intel core ultra 9 285k 或者 AMD Ryzen 9 9900x3d 加上 192GB DDR5 和 4TB 的 SSD,一般也就 $1,500 左右就搞定了。
作者: nanimarcus    时间: 2025-4-15 12:58
散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源一起吹,别去搞太复杂的冷却方案,水冷复杂且容易坏。
9 K, ]1 }  E# S  e& J- O5 S& V当然,有点吵,放在别的房间,用网络连接好了,命令行,远程桌面都可以。
3 t( e8 `, v4 N/ ?$ o服务器那种结构就是隐含你用那种暴力风扇,对散热并不友好。
# k/ {) m/ U" o& k, U我的GPU上的CUDA跑满都可以控制在80度以下。6 Y9 r- V! w6 F8 }$ d3 b& q, t
当然奢侈一点,放在空调房,调节一下空调出口,把机箱放在桌子上,对着机箱吹能降下很多,这才是真正的水冷加风冷。
作者: 孟词宗    时间: 2025-4-15 13:48
如果是为了跑本地大模型,显卡没有必要搞顶级的家用卡。相比速度,更重要的是显卡的显存有多少。% ]  C+ d) Z3 P2 c, b( V( D( }, d
' A- T' Q' P( C5 U
从性价比来说,两块3090比一块4090要好,这是因为3090仍然支持 NVLink。连接后显存会显示为 48 GB。这就可以容纳很多模型了。
( |% e* J1 |" P  T6 |3 Z9 M$ ~7 y, d+ E
但3090的问题是功耗, 350W 起步,两个就是700W,对电源要求高了。而且还得找有足够空间的主板和机箱。而且价格也不便宜。4090 现在给炒到 3650 美刀左右,3090 则是 2000 美刀。加起来就不是小数字了。3 r( w3 y- j# v1 |( F5 r3 i0 D2 `5 [

5 n& N. C  R& @- T3 i" o+ q对于显卡,我倒是推荐这个:PNY RTX 4000 Ada VCNRTX4000ADA-PB 20GB, 市价1500 美刀左右,有20GB。虽然不能串联,但这是个 Single Slot card。一般好的主板能塞三四个。功耗单卡才130瓦,三个加起来也就才相当于一个3090。而三个卡加起来 60 GB,Ollama 可以跑很多 LLM 了。
3 a& U$ ]3 R) L; q9 l6 [
) L+ ^: X- g* }3 d- K  m' k否则也可以弄个 PNY NVIDIA RTX 4500 Ada Generation 24GB GDDR6,这也就2300美刀左右,但显存和4090 一样。两个加起来相当于一个 4090 但显存要多一倍。1 C( ^) R4 C. x' f! Z4 j% d

& a5 `! O6 z, g2 z; {9 Q当然,俺的理想卡是公布但还没有正式开售的 RTX PRO 6000 Max-Q https://www.pny.com/nvidia-rtx-pro-6000-blackwell-max-q。这玩意儿有 96GB 显存,还可以用 NVLink 串联。最大可到四张卡384GB,而单卡功耗不过 300W。1 J; A" z! _* O) o
+ g' s$ X. J# q& I0 l8 j) T
当然价格据说也挺感人,要 $8,565 单张。
作者: 孟词宗    时间: 2025-4-15 14:12
nanimarcus 发表于 2025-4-15 12:58- \! r5 G' t! i& e& j8 j
散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源 ...

+ a" X5 M$ G5 d  \+ v8 s3 [* K同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机箱正面两个200毫米的风扇吹气,后面一个140毫米的抽气,足够用了。用风扇的时候,机箱应当关上,这样风速比敞开的更快。- a! n1 [: G7 O$ }* c

& [( m6 Z5 n) b* `# g1 ]CPU 和 显卡的冷却还是不能省的。倒不是风扇,而是它们的散热片不能省。有了散热片才能有效散热。风扇本身是不是装在CPU和显卡的散热装置上不重要。
作者: nanimarcus    时间: 2025-4-15 17:35
孟词宗 发表于 2025-4-15 14:12) B7 R: U! n) L/ @6 {
同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机 ...
" h6 j2 v- z9 V) n! j
我有点成见,总认为机箱上的风扇不够有力,呵呵。
; m% P8 J8 f5 I/ ]
1 _7 g+ `7 U+ E/ s2 j1 U2 q& z. P所以总认为机箱敞开了另外架个风扇吹特别有力,至少视觉上如此。" c* H" h3 ?. }5 Q# F6 a
# a. }& e! [  A6 `
所以我的理想型机箱就是一个框架,其他统统敞开了,吹!8 ?  a' E$ r+ q+ ?: I
0 X$ Y" |6 f7 Q/ g8 H( y
另外,CPU上带的散热片过于庞大,多少会造成主板变形,所以我的机箱是平放的,如此一来显卡是竖起来的,这样两个最重的部分不会造成形变。
作者: 孟词宗    时间: 2025-4-15 21:45
nanimarcus 发表于 2025-4-15 17:357 G' y+ O; v$ h1 a3 C1 @0 H
我有点成见,总认为机箱上的风扇不够有力,呵呵。
0 l4 b  y6 d1 n1 o0 C% ?
7 I, |1 B  D- l$ B/ r所以总认为机箱敞开了另外架个风扇吹特别有力,至少视 ...
6 R; X* H2 ~. G! w7 P- Y
Caseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。
4 [1 s4 n) T% J& ^. ?9 O9 F
5 z7 Z! c( ~0 \. j# i; R
9 g: y+ f9 F/ b5 n' D& z4 z主要问题是像下面这个放桌上的,如果一不小心撒点饮料上去就容易把电脑废了。
  z- H: {1 `; x: F: q# x9 c9 B& U
9 {3 r. J/ t1 W, j$ l8 z9 m1 ]7 x+ A" [! U& z2 A$ D# P
所以一般都是挂墙上的。造的好点的话还是挺科幻感的。( Z: x/ ]  K; i) A

作者: nanimarcus    时间: 2025-4-15 23:26
本帖最后由 nanimarcus 于 2025-4-15 23:27 编辑
) p" W1 F& B" ^7 Y6 `
孟词宗 发表于 2025-4-15 21:456 P" M# ^* R* H9 I# \$ C: ]1 `# B
Caseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。
9 n6 m* p& Q( b* B1 {' j

6 h$ J& W, U) |/ ?这个确实很赞。; ~0 o; h; ?7 C, T7 i

" C/ O# v$ e& U5 ]第一三张好像放不了全尺寸显卡。
* w( G6 Z) f1 p' U8 i; Y5 G% e第二张全尺寸显卡的散热好像不太好。
作者: 孟词宗    时间: 2025-4-16 00:07
nanimarcus 发表于 2025-4-15 23:26
  ]7 l5 d5 \% Q+ ~1 r这个确实很赞。7 t% Z: R4 C, ?+ s( X% {

0 G1 ~: f/ I! W7 a第一三张好像放不了全尺寸显卡。
4 o6 z7 |( K% e" j$ |7 L7 V: A
都是全尺寸显卡。第一、三两张中的显卡散热被魔改成水冷了。所以看不到明显的显卡。实际上两个机器应该都是双显卡。第二张的显卡问题不大。很明显不是80或90级别的。根据电源才600W来看,应当是3060或4060级别的。这个显卡的原装风扇还在,制冷应当还行。
作者: 雷声    时间: 2025-4-16 07:27
孟词宗 发表于 2025-4-15 11:58
7 h: T9 x( b1 F% R$ s9 I2 M没那么贵,Amazon 上一条才 $239。16条也就$3,824。! o( ~! l6 K4 t- E2 ^9 }

) g7 e6 K  A5 y. d4 B  G  lhttps://www.amazon.com/Tech-2666MHz-PC4-21300-Wo ...

) n  N8 K! f/ ~3 f& wHP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。0 r# G' e. X+ i+ K. L
Z6/Z8 G4也可以上到2TB,加上PMM的话更多,价格比Z840也贵不了多少。  M5 k. b. I, x+ }
话说Z系列是真不错,我09年买的一台Z8现在用的好好的,而且比公司配的新Alien还快。
作者: 孟词宗    时间: 2025-4-16 09:55
本帖最后由 孟词宗 于 2025-4-16 10:03 编辑
6 V) S* l5 j9 V* V7 }2 Z% B* M  g
雷声 发表于 2025-4-16 07:27& w5 R' a( |+ m8 y7 Z
HP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。 ...
- z* p& G# v5 c0 F; O7 m) [- U
+ z! ]' m% w" [" x+ D
HP Z8 G4 号称可以最高支持 3TB 不过这得看 CPU。如果单个 CPU 只支持 768 GB的话,那两个 CPU 最多也就 1.5 TB。大多数旧的 HP Z8 G4 都最多 1.5 TB。2 N, n7 Y% L9 r9 ?6 J
) M2 a) s. H) U: l
性价比来说你说的很对,Z8 G4 的确更合算一些。尤其是不少旧机器本身就带了 1.5 TB。这比自己买要合算多了,也省事多了。
% K) H4 G% O" G% P2 s% j! U
0 }7 Y: Z- n& u! N) e( I从跑 LLM 的角度讲,应当是可以跑,速度勉强可以接受的程度。俺那个三年旧的机器,如果不用显卡,跑 DS-R1 的 70B 蒸馏版最快也就两三个token每秒。Z8 G4 跑DS-R1 的671B版本应当只会更差。毕竟内存更慢,模型更大,CPU更老。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2