爱吱声

标题: DeepSeek R1全参数模型一个可能的本地部署方案 [打印本页]

作者: 沉宝    时间: 2025-2-20 15:41
标题: DeepSeek R1全参数模型一个可能的本地部署方案
DeepSeek一夜爆火,现在联网服务拥堵不堪。当晨老大号召自建farm的时候,本人开始认真考虑本地部署。 KTransfomer的报道也在第一时间见到,并设想了一个以此为基础的装机方案。然后呢,就“铲后抑郁”了。如今很多内容都在网友[大黑蚊子]的记录(链接)中讨论过了,但具体的装机方案大概还有一些价值,还是写出来吧。
. `# t3 ?; ]( j, [) W# r/ m
1 \- Z5 S+ O( u: T" e& A, QDeepSeek R1原版是一个参数量高达671B的大模型,虽然比之其它頂尖的人工智能模型在硬件要求上已经大大降低,但个人部署全尺寸模型,依然难度不小。为了便于在低端硬件上运行,出现了一系列蒸馏版减少参数量(以 Qwen2.5 或 Llama 为构架,参数范围从 1.5B、7B、8B、14B、32B 到 70B)。另一个思路是参数量化,例如1.58bit和4bit。一般来说,LLM训练时使用高精度(例如 32位浮点数),而推理时使用低精度(16位浮点数或者更低)即可。1.58bit是把这一趋势推到极端(只有0、1和-1三种状态)。有人试验了DeepSeek全尺寸模型的1.58bit的量化版,结论基本可用,有时候说话可能有点“冲”,圆润平衡上差一些。4bit版效果已经相当好了。至于[xiejin77]担忧的量化影响反馈精度或者稳定性,理论上有可能,但实际影响需要大量的对比实验加以证实或者证伪。
2 d8 D3 k0 C3 M3 f4 G1 U: o0 m7 q9 |: w
下面讨论具体装机方案。首先定一下目标。目标用户:个人或者小团体。鉴于这个模型现在典型的应用场景都是文字的输入和输出,跨网络合用的难度并不大(因为不需要占据太多的网络带宽)。单机,预算定位$5000左右。应该属于一个人咬咬牙能冲得上去,小范围集资(10人以内的那种)能够轻易支付。目标性能:DeepSeek R1全尺寸671B的4bit量化版,输出速度与人的阅读速度差不多即可(个人使用,太快了没有必要),约 5-10 tokens/s。这样的预算,这样的目标,显然需要KTransfomer技术加成才有可能达到。饶是如此,也得按市场最低价加DIY省着来。
) D7 o2 c/ z; l6 f1 Z3 ?. J1 m) s  }, ?" V' i: _( ^
第一步:内存的大小。将模型的参数全部放入内存是必须的。如果还用硬盘空间扩展出来的虚拟内存,那速度肯定慢的不行。DeepSeek参数精度16bit(BF16)时需要 1342GB的存储空间,4bit量化版所需空间为其¼,再加上程序和操作系统所需,512GB应该可以了。这么大的内存,普通PC机主板肯定不行,要上服务器的。鉴于当前DDR4的内存条比 DDR5还是要便宜不少,所以选择DDR4。
8 E+ q3 G/ [% @' g* ?+ p9 N/ ?! [2 ?2 g
第二:CPU和主板。CPU我选AMD Zen3架构( Zen3是DDR4的最后一代)的服务器芯片EPYC 7C13, 64 core 128 threads, 市场价仅$700+。它与正式发布的7713结构一致,频率略低,有人怀疑类似于Intel的 ES(工程样品)。主板支持Milan的SP3主板即可。唯一要注意的是内存插槽数,根据DDR4单条内存的容量大小,要能够插出512GB来。
5 l' \0 m( S& ^5 b7 p) ~  A+ @3 I% R& a. i" [

$ p4 K9 R, [. X7 q( [/ \5 w第三:显卡。双3090或者单4090。4090不好买,用两块3090大致能抵上一块4090。
0 t  s" I% c+ I6 q8 M& g% H/ i* I$ R( q: @2 O8 R
第四:硬盘。这个要求真不高,如果机器仅仅是为了跑DeepSeek,一个4 TB3 M5 N( Z, p4 c
(或者两个2 TB)的nvme就够用了。(想当初我在爱坛上发记录推荐固态盘时,一块4TB的才$150)
! k- I' C1 M& @* k8 L/ E, |$ F1 J$ _! E$ Z" r
其它:说3点。1)普通PC机箱。2)散热避免使用服务器的暴力风扇( PC机箱也缺乏服务器的风道结构)。如果散热量大,考虑用水冷。3)如果单台大功率电源太贵,可以用两台小的给主板和显卡分别供电。如此需要双电源同步启动板或者同步线,但那东西淘宝上也就人民币10块钱。
# f3 `# t. T9 Z- R8 Q2 [+ v: P: [. y6 J. n# a: c" ?
最后汇总一下。数字为能够淘到的大致美元价,可以接受二手货,+、-表示向上下浮动不超过15%0 U- ?# E& ?/ t1 v

6 [# w! m7 Y% X" KRAM 512GB DDR4       1000+
( J3 O3 s" M6 G/ p! K2 w& nCPU 7C13或相当           700+# {: @1 d  d' I: U
主板(单路即可)         500' G$ |+ @% L8 I: D
显卡 3090                  1000- ×2
7 I! O8 y! b' x固态硬盘                     200+
  Z5 W  h/ Q/ M" n其它 机箱、电源、散热器等
/ ^8 C( x" {; d  X! G. d- I. t- X% ], Y4 C

作者: 大黑蚊子    时间: 2025-2-20 16:27
本帖最后由 大黑蚊子 于 2025-2-20 21:55 编辑 . x8 D) _/ [) z! |8 _
* K+ e3 Y( N8 ]2 ~' Y9 P
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径了/ z# s2 G- k! E  h' v/ O6 j. d
在硬件选型上面我倒是有点儿不同意见,鉴于章明星他们在0.3版里使用amx指令集加速,那么支持amx的Intel至强可扩展CPU应该是要好于AMD的EYPC的,具体来说现在Intel最新款是6代至强,退而求其次选择四代或者五代至强应该也满足要求。章明星团队他们的硬件好像也是双路Xeon 6430
. G0 {; |) {1 \& B但是这个成本可能要比你说的EPYC要高不少,但总的来说应该还在可承受的范围之内6 t5 R! A6 c+ {; ?& B
显卡的双路配置好像不是特别必须的,主要是4bit量化版需要14g显存,所以如果有一块3090先用着应该问题也不会太大,实在不行多买一块也可以
$ x8 n/ Y3 O1 u; A
' {: I" t' X, T7 W周末去华强北转转去,看看二手服务器有啥准系统能够直接上手的
作者: 马鹿    时间: 2025-2-20 21:42
我看到了国内AI的商机。。。 攒小配置的AI模型!
作者: 马鹿    时间: 2025-2-20 21:43
关于方案, 我直接问过deepseek。。。
作者: 马鹿    时间: 2025-2-20 21:45
大黑蚊子 发表于 2025-2-20 03:27  u- h, i  i' C% E1 {: K; {/ D
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...
# K) ~6 N% P2 r, T! |
真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
作者: testjhy    时间: 2025-2-20 22:50
马鹿 发表于 2025-2-20 21:45! ?0 A# y  W* g8 T& c# K0 H/ w' t
真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
, B3 C9 d( y* u+ |" _
社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,
作者: 马鹿    时间: 2025-2-20 23:19
testjhy 发表于 2025-2-20 09:507 e9 y: ]- {( I8 C2 `% ^+ q) h! r
社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,

5 d. a+ [4 N# v- R& f攒了以后干啥呢?
作者: testjhy    时间: 2025-2-20 23:32
本帖最后由 testjhy 于 2025-2-20 23:41 编辑
* t2 D5 E8 T" K1 {
% B1 v* c9 \; e% ~1 ~& l3 q
! O; N' r5 Z, t6 e8 n1 k这是大华股份根据国产芯片的一体机,估计是华为提供的方案供各家贴牌
作者: 大黑蚊子    时间: 2025-2-20 23:38
testjhy 发表于 2025-2-20 23:32
9 d$ B! h$ [; g) r& m这是大华股份根据国产芯片的一体机,

0 b6 H/ @" M4 Z2 c% }大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型
# M9 X0 Z7 Z( P我在自家电脑上搞了一个7B的模型试了下,真的是不太行
; Y+ D8 J4 r6 P, g. }# K( Z我估计32B和70B也都不太行9 A# f4 K% e( t( ~4 T8 I# e7 [3 X
这个帖子里讨论的应该是直接上手671B的满血量化版,1.58或者4bit版本,这个据多个信源反馈效果挺好的
' `; ?' n. c5 ]1 k5 Q$ m2 I( }6 j, ?: i& k

3 a  N9 `4 B8 [1 h" S! g不过这个单子我倒是可以拿着去嘲笑下大华的朋友“你们钻钱眼里了?搞这个文字游戏骗钱”
作者: testjhy    时间: 2025-2-20 23:42
马鹿 发表于 2025-2-20 23:19
# E- j  R: t: e3 |攒了以后干啥呢?

8 l3 B' N  h. v, w# R想干啥就干啥,吃喝玩乐,
作者: testjhy    时间: 2025-2-20 23:45
大黑蚊子 发表于 2025-2-20 23:38
6 p' c( P" w8 E" M9 y大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型
9 V; ]8 l3 c* D# o5 O5 G+ R我在自家电脑上搞了一个7B的模型试了下, ...
) t7 e  X. O  ]; E, Z
找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,
作者: 大黑蚊子    时间: 2025-2-20 23:53
testjhy 发表于 2025-2-20 23:45
7 [# S1 e$ y" x找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,{: ...

4 k& w7 l; p$ q) z9 F我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的
7 ?- c5 Q. y1 L1 u4 e. q打听了一下Intel的至强4代CPU,现在全球缺货,嘿嘿' n" Q) Z8 B6 y8 J* u- s
去华强北看看有没有QS版本,可能一块就要6000人民币至少
作者: 马鹿    时间: 2025-2-20 23:53
大黑蚊子 发表于 2025-2-20 10:38/ G  V0 W; V1 i+ O- D
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型, W/ ~! {. T1 o, Z% |2 v) G: t
我在自家电脑上搞了一个7B的模型试了下, ...

% v- H; e, l0 ]) n6 k  G好奇你攒个模型做啥?
作者: 大黑蚊子    时间: 2025-2-21 00:03
马鹿 发表于 2025-2-20 23:53" q% s: Y& B2 |* J. s! K4 F6 N$ F
好奇你攒个模型做啥?
5 F9 G4 l3 g& ?/ r  C0 C8 k
2 A: M# o) ^$ _* u
玩啊,好奇啊,这很可能是通向新世界的大门5 c7 h8 d7 u% x5 f2 z3 j" z) G2 L$ A% z" Z
有这个条件的话,干嘛不玩?8 t. h2 q8 T# p4 A, P) F

3 |, Z! F; ?0 I( v4 k现在大部分人还在懵逼状态中,只是知道个大模型的东西,具体怎么搭,个人知识库怎么建,私有服务怎么处理...好玩的需求多着呢
( n& @/ I, E4 N' j
& s, ^3 W* A/ l% b- ]DeepSeek的出现,极大降低了大模型训练和部署的总体成本3 @; K* p. N8 d8 R
KTransformer架构的出现,打响了极大降低大模型部署和私有知识库服务的硬件成本的第一枪" ~9 t9 d5 v  V$ I: r

& E: U) J4 |) s  y' V  l7 ?6 f这种能够降低90%成本的新技术出现,大概率后面会蕴藏着10亿级别的新的相关应用和服务空间
9 m% I  G7 Y$ i% G, u8 l玩的过程中也可以吸收很多其他的知识,认识其他稀奇古怪的人,包赚的啊
作者: 沉宝    时间: 2025-2-21 00:16
大黑蚊子 发表于 2025-2-20 16:27
9 P2 k6 Y8 r5 d6 q( L& {说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...

; D* H& f7 j- }) {. d; V9 q9 D+ [3 Z这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所以在预算有限的前提下,应该尽量省下钱来加强GPU。当然如果实测一块3090够用了,那更好。' g; ~+ A" o" b* b3 U& j5 R8 F

3 d  E* j% k! h$ \对比EPYC与Xeon 6530方案。Xeon 6530 2023年底发布,还比较新,主板加CPU的折扣有限。而EPYC Milan则要旧得多,有大批从数据中心退下来的二手货可选。即便有amx加成,但架不住7713的核多,单挑的话还是应该7713赢。而双路7713的话只不过比我的原方案多一颗U的钱,其它几乎不用改。个人认为CPU的第一位作用是保障参数全部装载在内存,计算加速还在其次。章明星团队的努力是充分挖掘手头现有硬件的全部潜力,amx加速是新版才加上去的,可见并非重中之重。
作者: pcb    时间: 2025-2-21 01:42
大黑蚊子 发表于 2025-2-20 23:53
9 V9 y- p8 v9 B1 l8 u$ ?4 g/ I我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的
/ I% S7 }/ K: E9 L  w6 a打听了一下Intel的至强4代C ...

. e: ]1 ]0 @. h/ w2 y9 \: k7 O"至强" 是 Xeon?
作者: 马鹿    时间: 2025-2-21 02:29
大黑蚊子 发表于 2025-2-20 11:03
6 M8 g8 Z  e' w8 w: N% G8 I; A玩啊,好奇啊,这很可能是通向新世界的大门5 w3 y: [& u8 M' g
有这个条件的话,干嘛不玩?

! Q! B7 O  a- I" e& m8 G握手, 我也是,就是好奇。 也同样认为这是通向新时代的大门。
作者: xut6688    时间: 2025-2-21 05:30
在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。至于本地部署的蒸馏R1,我试过各个版本包括70B的,效果都不好,和原版差太远。我自己玩着用本地部署的模型做了一个RAG应用,最后发现蒸馏R1还不如原版的QWen2.5 32B。
作者: 大黑蚊子    时间: 2025-2-21 09:06
xut6688 发表于 2025-2-21 05:30
; N2 _# E/ T$ P3 g在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。 ...

2 l7 ?( \( G9 j* q( W4 t& i% U所以为啥盯着671B的版本呢,就是这个原因,其他版本的性价比其实都不好。
* s" e: o) o+ S1 M. @
+ c; W2 u* h0 P( ^目前有海量的本地部署满血版DeepSeek的需求,因为太多的数据受商业或者法规的限制不能上网,这个部署的整体过程是有很大市场需求的。
) L9 P2 U; F5 T" v) z. P- A6 i. K- j2 G. g' i$ r
DS和KT的诞生,不是拉低了对算力的需求,而是通过降低成本做大了整体算力需求。# v3 \# b0 f# j7 B8 n
7 G! a! @  d8 l  p. c
而且部署过程中的调优和配参,踩过的坑,以及反复琢磨和资料学习的成果都是自己的。; C; s3 ~$ \- U5 ^2 I) t! j7 G
  f, P4 j  \, g5 L6 t
再说了,都是二手硬件,搭完之后上闲鱼卖掉,亏不了多少钱
作者: 大黑蚊子    时间: 2025-2-21 14:10
沉宝 发表于 2025-2-21 00:16
0 ]; S( o4 T. N这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所 ...
8 W4 D4 d" c0 F7 H, z' J
我建议你再看一下KTransformers的相关资料- q' W8 u4 P8 q& @! j& t$ w  Z
这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依赖CPU/DRAM带宽,从而降低GPU需求的降本做法。
. v8 p8 }. \% i3 U" cDDR5换DDR4的话,带宽砍半,对应token的数量就要起码减半  U( G# B0 o8 ~. F
CPU的带宽再砍半的话,又要丢失速度5 B4 g* `) v: u5 e
如果CPU/DRAM带宽不够的话,甚至3090可能都喂不满,无限下降螺旋在降低成本的同时会极大影响使用效果9 h& p: K3 P1 P2 U
对于咱们来说,跑起来不是胜利,能够最低限度可用才是核心需求所在啊
* [* B3 ?. j3 g9 N7 a* w我觉得起码要搞个输出4-6token/s才行吧
/ x2 s% a( Z7 T0 ~按你这个方案我估计可能1-2token都悬
作者: 沉宝    时间: 2025-2-22 00:10
大黑蚊子 发表于 2025-2-21 14:10* m  b" i! w( t$ b4 N3 r& \6 Q
我建议你再看一下KTransformers的相关资料( C8 p: y. `, W5 M* L! I0 S
这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依 ...
) A$ E3 N* r, \+ |/ S$ T7 ^, \. b2 {, M
欢迎讨论。
- H2 r  @2 r3 d# @( d
# f" s6 ]- m& q! P- F首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek是基于MoE的,回答某一个具体问题时只有部分参数高度活跃。KTransformers可以动态调度,把这部分高强度计算交给GPU(好钢用在刀刃上),剩下的则由CPU完成。所以CPU部分对系统整体性能的影响不如GPU大。作为佐证,上一帖我提到了章明星团队在几次版本迭代更新之后才把amx加速添加上去。2 c* W% t( ?! Z

* s! L) j' j' l# [8 I' l9 [& p) ACPU/DRAM带宽对系统性能的影响不是简单线性的。老实说,我没有咱们现在讨论的这样大的系统的实际经验。我只能根据在台式机上看到的现象做一些外推。Intel的12代和13代同时支持DDR4和DDR5,DDR5内存下整体成绩要比DDR4好一些,不过差距并不大。至于到显卡的带宽,我也可以说一点。我们知道目前大部分显卡的插座都是PCIe×16。外置显卡时,因为各种原因往往不做16路通道,比方说仅仅实现了8位通道。那么这个PCIe×8的显卡游戏性能下降多少呢?绝对在30%以内,常常也就10-20%。0 |; c* [1 @5 i6 B& c% O

6 y5 [2 A$ B5 E9 j以上这些是我没有简单照搬章明星团队的配置,而为省钱做了一些变更的原因。
作者: 大黑蚊子    时间: 2025-3-10 22:25
沉宝 发表于 2025-2-22 00:10
8 N2 E7 A, [8 L" q1 |$ R1 O3 n欢迎讨论。
/ O* H5 a% D# A5 ~  w  B
* f1 c4 Y$ a* o  ~/ Z% V! o首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek ...

  u) h$ a6 o3 f: k" p+ d% S! O$ k) X3 Y刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本! q* |$ p# M/ r4 F- ^" U4 j
显卡用的是3070M 16G,环境是Ubuntu 24.04.2* ]) E( e6 k! q/ A
输入大概是10不到一点,输出大概是5,勉强可用
* ^' }6 h4 r7 |  Q4 m& ?因为都是整的垃圾配件,总体的成本大概不到4000人民币1 ?8 e5 }+ L7 c2 T! s# l7 V" g
! L9 z* q# g: I3 C) F+ E! a
我估计如果他能够用DDR4+至强的话,应该可以到7-8的输出
# f* m8 n, P6 o如果是这个速度的话,个人轻量使用已经没有特别大的问题了
作者: 数值分析    时间: 2025-3-10 23:42
这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的
! c$ d& `2 V# U; j$ B/ Z. G- vhttps://www.pmtemple.com/academy/17340/
) v& W3 {+ u3 [1 ]
作者: 孟词宗    时间: 2025-3-11 01:50
大黑蚊子 发表于 2025-3-10 22:25
% w& ^: X( E: c! _- {刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本- E7 c9 J+ [, T- W- H9 N
显卡用的是3070M 16G,环境是U ...

+ g3 j3 }# ?4 J0 R: H
7 Q; A* A: Z# w$ O4 Q6 n我觉得别对Q5以下的版本抱太大希望。Q5 以下只能说是能跑,但效果实在不敢恭维,很多情况下出来的回答都不是 AI 幻觉,而是文不对题。在决定投钱搞硬件前,还是建议先化小钱租个服务器,下载不同的压缩版看看效果再确定要用哪一版,用什么本地硬件。
作者: 沉宝    时间: 2025-3-11 02:12
大黑蚊子 发表于 2025-3-10 22:25
1 ?- w7 {" H% Y9 Z4 D( E) Z% ~; z& d刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本5 V0 W( V9 R4 n$ X3 m" \$ P; Y
显卡用的是3070M 16G,环境是U ...
5 k# o" r& o! j6 W! B' {, _* h
这做得很厉害了。点赞!
作者: 沉宝    时间: 2025-3-11 02:14
数值分析 发表于 2025-3-10 23:426 U" L" H8 y7 Q0 [9 q
这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的0 }1 S: w& H0 T2 \! J  w: V0 z
https://www.pmtemple.com/academy/ ...

6 Z# V0 u; [* ^5 L4 m, r这么多案例,很有参考价值。
作者: 孟词宗    时间: 2025-3-12 01:39
有 512 GB RAM 的话,基本 Q3 以下都可以跑。Huggingface 上量化版不少。例如这个:https://huggingface.co/unsloth/DeepSeek-R1-GGUF 从 Q1 到 fp16 都齐全了。Q1 的几个版本甚至只要 256 GB 就可以跑了。" m0 t& ~$ W- E" H! E+ C* u1 ~6 q
7 P/ _* P. F( K: S3 V, s& j
但是,量化版压缩了尺寸,同时也压缩了功能。个人感觉 Q5 以下基本都是渣渣,回答大多逻辑不通。
作者: 孟词宗    时间: 2025-4-15 10:41
大黑蚊子 发表于 2025-3-10 22:25
) l* l' \" i# _: D# O8 |: j# w刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
6 \  I- b; i) _显卡用的是3070M 16G,环境是U ...
: T2 \' v# W0 |0 e$ O; T& @
性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是有16条内存槽,按 Intel 的说法,每个 CPU 可以到 768 GB DDR4。两个就是 1.5TB (实际 HP Z840 号称能到 2TB),正好可以跑 DS-R1 671b 完整版了。
作者: 雷声    时间: 2025-4-15 11:18
孟词宗 发表于 2025-4-15 10:41
6 ?( j+ B2 ~, m8 E性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是 ...
0 b) C( T( O+ }5 `) ]
https://cloudninjas.com/collecti ... 40%20will%20support,Reduced%20server%20(LRDIMM)%20memory.3 R& Q& a& b4 \9 ?$ ]/ X8 q% X
7 E% d- x4 d: T% _
The HPE Z840 will support 4GB, 8GB, 16GB or 32GB DDR4 Registered.
3 c5 ]7 u' T0 ]5 }6 rThis server will also support 32GB, 64GB or 128GB Load Reduced Modules (LRDIMM). ' q! X. ~$ M; t' t
The Maximum amount of RAM the HPE Z840 server can hold is 2TB (16 x 128GB) of Load Reduced server (LRDIMM) memory- d. j% n8 ?' g/ O+ `6 F: n
+ f. F4 z0 g1 Z  C, t! k$ A+ R
LRDIMM 128GB的话一条要1400~2000刀,16根的话。。。。 好像也不便宜了。! J: g8 B( `8 z7 f6 i' V
Z840倒是不值几个钱。
作者: 孟词宗    时间: 2025-4-15 11:58
本帖最后由 孟词宗 于 2025-4-15 12:01 编辑
! X, r" Z) L) ?3 G% C! }
雷声 发表于 2025-4-15 11:18
* _- ]% Z2 ^/ ^! @+ i  {7 A3 {https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...
% f! z( M( r1 D; l# e

- {) W6 E* {" T8 s+ L5 ?没那么贵,Amazon 上一条才 $239。16条也就$3,824。1 \* ?% `- A) b( I* P9 k# F0 e

4 I" n$ {  L" L- {( M; Fhttps://www.amazon.com/Tech-2666 ... cp-nq_eMQV&th=1
. Z9 u. x; F$ d' q7 k2 I% I* x# _8 k0 C- }# o3 @
1TB 的kit 稍微便宜一点, $1,908, x2 就是 $3,816: https://www.amazon.com/Tech-8x12 ... amp;sr=1-1&th=15 j) {- C  m& ], D) z

) Z+ H7 R- |+ V1 s3 `" ?+ p* o# ~但如果上 2TB 的kit 反而要 $4,319 : https://www.amazon.com/Tech-16x1 ... ctronics&sr=1-6
/ T) Z3 r, t2 f+ K( Y
$ `7 t2 o$ Q5 e6 a& i! v0 d# o6 ?1 P9 j. P9 J9 h) Q. w* \
当然,真要上这个,最好买以前和卖家咨询一下,这些 RAM 是否可以装 Z840。我估计 Z840 出来这么多年,大概最多也就有人装到 128 GB,毕竟这不是 server 而是个工作站而已。
作者: 孟词宗    时间: 2025-4-15 12:14
雷声 发表于 2025-4-15 11:18
2 m6 H# g2 w% z4 n; ~https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...
2 V% n5 B$ O5 C: ]& k5 Y" O
, q6 r( _- s  K  U  U
顺便说一句,如果只是要跑压缩版的话,我在另一个帖子(http://www.aswetalk.net/bbs/foru ... read&tid=161700)里已经说过,如果有192GB的 RAM 就可以跑 IQ1_S(131 GB), IQ1_M (158GB)(假设没有显卡加成)。8 g$ \( ^$ v% |% Z  E+ A1 @; G
1 F# i1 L0 Y1 a  ?" q1 B; M
不要显卡的话,搞个Intel core ultra 9 285k 或者 AMD Ryzen 9 9900x3d 加上 192GB DDR5 和 4TB 的 SSD,一般也就 $1,500 左右就搞定了。
作者: nanimarcus    时间: 2025-4-15 12:58
散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源一起吹,别去搞太复杂的冷却方案,水冷复杂且容易坏。& N/ ]- Y2 }8 F$ ?% b5 B
当然,有点吵,放在别的房间,用网络连接好了,命令行,远程桌面都可以。
- r& o5 v) I" x6 D' Q2 u- l服务器那种结构就是隐含你用那种暴力风扇,对散热并不友好。( r  M# q# ~2 d  R
我的GPU上的CUDA跑满都可以控制在80度以下。
- W, k! A3 r' A( F( z& V, |$ T当然奢侈一点,放在空调房,调节一下空调出口,把机箱放在桌子上,对着机箱吹能降下很多,这才是真正的水冷加风冷。
作者: 孟词宗    时间: 2025-4-15 13:48
如果是为了跑本地大模型,显卡没有必要搞顶级的家用卡。相比速度,更重要的是显卡的显存有多少。
9 ^- N$ F4 z/ ?& u* X9 t( h6 T' `2 }1 t8 Z
从性价比来说,两块3090比一块4090要好,这是因为3090仍然支持 NVLink。连接后显存会显示为 48 GB。这就可以容纳很多模型了。
1 o! l& U* ?3 _7 n9 E3 k( Z. S4 o+ }% n+ Z3 I/ ]: w
但3090的问题是功耗, 350W 起步,两个就是700W,对电源要求高了。而且还得找有足够空间的主板和机箱。而且价格也不便宜。4090 现在给炒到 3650 美刀左右,3090 则是 2000 美刀。加起来就不是小数字了。
( ]2 {4 A3 s6 D0 A) s9 h: P. P  }  h# l' d
对于显卡,我倒是推荐这个:PNY RTX 4000 Ada VCNRTX4000ADA-PB 20GB, 市价1500 美刀左右,有20GB。虽然不能串联,但这是个 Single Slot card。一般好的主板能塞三四个。功耗单卡才130瓦,三个加起来也就才相当于一个3090。而三个卡加起来 60 GB,Ollama 可以跑很多 LLM 了。2 g: L  u# h8 Z; w( \6 S- P
( G3 ]: S$ C* u5 @0 `
否则也可以弄个 PNY NVIDIA RTX 4500 Ada Generation 24GB GDDR6,这也就2300美刀左右,但显存和4090 一样。两个加起来相当于一个 4090 但显存要多一倍。2 `9 g& M" J5 \0 j
" `+ Y. N* k! Y: n' l5 _- k
当然,俺的理想卡是公布但还没有正式开售的 RTX PRO 6000 Max-Q https://www.pny.com/nvidia-rtx-pro-6000-blackwell-max-q。这玩意儿有 96GB 显存,还可以用 NVLink 串联。最大可到四张卡384GB,而单卡功耗不过 300W。9 B# n! Q6 e- e7 k; z% j

3 X6 U% G, o/ `0 K) N当然价格据说也挺感人,要 $8,565 单张。
作者: 孟词宗    时间: 2025-4-15 14:12
nanimarcus 发表于 2025-4-15 12:58
% s! |% J1 @' S, v8 s散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源 ...

& ~+ f$ s# S* V4 `+ l同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机箱正面两个200毫米的风扇吹气,后面一个140毫米的抽气,足够用了。用风扇的时候,机箱应当关上,这样风速比敞开的更快。
$ j; g# U! y& j* l( ^2 ~  j( M% {* K- u6 e9 `
CPU 和 显卡的冷却还是不能省的。倒不是风扇,而是它们的散热片不能省。有了散热片才能有效散热。风扇本身是不是装在CPU和显卡的散热装置上不重要。
作者: nanimarcus    时间: 2025-4-15 17:35
孟词宗 发表于 2025-4-15 14:128 g' b; Z0 |% a+ M+ ]  h
同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机 ...

6 _; @1 E/ k/ i  }1 Q" z, G: I% m我有点成见,总认为机箱上的风扇不够有力,呵呵。( j: k, \3 K8 Z! r$ d7 y! m0 N: E: ?
# a4 Y" \" \+ I# `. \7 ?# C
所以总认为机箱敞开了另外架个风扇吹特别有力,至少视觉上如此。+ a3 w- d8 g# L' [& z2 `) X6 d

6 Y. Y/ a3 N( F( }" e* c所以我的理想型机箱就是一个框架,其他统统敞开了,吹!
4 T! V1 C* f0 M1 o  o4 F  _& m. p1 v% o' P/ m* g
另外,CPU上带的散热片过于庞大,多少会造成主板变形,所以我的机箱是平放的,如此一来显卡是竖起来的,这样两个最重的部分不会造成形变。
作者: 孟词宗    时间: 2025-4-15 21:45
nanimarcus 发表于 2025-4-15 17:35
' R( x2 X7 \1 \; s. d; L我有点成见,总认为机箱上的风扇不够有力,呵呵。1 {+ k5 z/ V9 `, d( J2 l

/ o6 D" |! [0 }3 {( l1 O所以总认为机箱敞开了另外架个风扇吹特别有力,至少视 ...

! U0 }$ q+ l6 G0 VCaseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。3 v* W7 T" A& T) Z/ [9 f3 B" `7 @
- l7 q' ]! h8 M/ ]7 N
) g3 W8 G& i2 ?- g
主要问题是像下面这个放桌上的,如果一不小心撒点饮料上去就容易把电脑废了。5 }0 F/ v# U* l' j
: m- `5 H, |' r4 T9 n' d& ]

/ u& x* W; E7 n5 N* X8 }& y所以一般都是挂墙上的。造的好点的话还是挺科幻感的。
. w3 N3 ?! w( p. O  C
作者: nanimarcus    时间: 2025-4-15 23:26
本帖最后由 nanimarcus 于 2025-4-15 23:27 编辑
# Q: A& s  R$ M/ V4 t
孟词宗 发表于 2025-4-15 21:45  K4 {4 N  b6 t6 q) M
Caseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。

2 C# k: p! @) S0 q5 t4 k/ ^3 E5 z4 ]( {) P4 ]" k% D: v, R( @3 C
这个确实很赞。
! \7 u4 ~/ d  i- J* E4 S6 Z( B+ |. }, i* c' l" M
第一三张好像放不了全尺寸显卡。
2 h3 ]' T- v; A  C第二张全尺寸显卡的散热好像不太好。
作者: 孟词宗    时间: 2025-4-16 00:07
nanimarcus 发表于 2025-4-15 23:265 W  t  n5 N( b& W' s
这个确实很赞。+ F7 ?( R" I+ W9 o" z1 X3 U0 \8 U

* d' M3 c( U1 S( G" |, }6 S# D第一三张好像放不了全尺寸显卡。
$ q/ I7 R: n1 r
都是全尺寸显卡。第一、三两张中的显卡散热被魔改成水冷了。所以看不到明显的显卡。实际上两个机器应该都是双显卡。第二张的显卡问题不大。很明显不是80或90级别的。根据电源才600W来看,应当是3060或4060级别的。这个显卡的原装风扇还在,制冷应当还行。
作者: 雷声    时间: 2025-4-16 07:27
孟词宗 发表于 2025-4-15 11:58% x2 P" C) y' j9 e, v8 W+ z
没那么贵,Amazon 上一条才 $239。16条也就$3,824。! E9 @( i. r. @: _+ g

( H! P+ \8 \* s7 Uhttps://www.amazon.com/Tech-2666MHz-PC4-21300-Wo ...

- }0 @' E' Q. S' k, {5 V% \# {HP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。+ D9 Y6 \2 D7 Q: p' c9 c
Z6/Z8 G4也可以上到2TB,加上PMM的话更多,价格比Z840也贵不了多少。
3 g1 Z; `9 c7 m0 n( _$ ~* H话说Z系列是真不错,我09年买的一台Z8现在用的好好的,而且比公司配的新Alien还快。
作者: 孟词宗    时间: 2025-4-16 09:55
本帖最后由 孟词宗 于 2025-4-16 10:03 编辑
8 @  M' i" G) e2 {9 ?7 R$ {/ u1 E. X) j
雷声 发表于 2025-4-16 07:27: c  T, a; X' h; b
HP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。 ...

  f$ |, f9 I7 l9 I
9 M8 e) S+ i$ Q0 r+ F( C1 Z- }HP Z8 G4 号称可以最高支持 3TB 不过这得看 CPU。如果单个 CPU 只支持 768 GB的话,那两个 CPU 最多也就 1.5 TB。大多数旧的 HP Z8 G4 都最多 1.5 TB。  H8 e8 \- v! I

( u. V7 S1 `  b+ l4 B2 j性价比来说你说的很对,Z8 G4 的确更合算一些。尤其是不少旧机器本身就带了 1.5 TB。这比自己买要合算多了,也省事多了。- F% N3 c4 m; L/ S, r2 [3 l

3 T  N- c1 H# Y% C从跑 LLM 的角度讲,应当是可以跑,速度勉强可以接受的程度。俺那个三年旧的机器,如果不用显卡,跑 DS-R1 的 70B 蒸馏版最快也就两三个token每秒。Z8 G4 跑DS-R1 的671B版本应当只会更差。毕竟内存更慢,模型更大,CPU更老。
作者: leekai    时间: 2026-4-18 21:09
我去年春节也攒了台x99 双路e5v4+256+2080魔改22g*2,硬盘因为以前装nas不用买,后来淘了Dell730 HP z440,用下来感觉单路CPU更合适。期间装了N多大模型,现在只剩ragflow+qwen 3.5 ,35b做map,27b做reduce,都刚好可以单卡运行。前两天刚跟风试了turboquant,效果挺好。今天发现qwen 3.6发布,并且有UD IQ4量化,正在下载准备试试。2 M; R+ P# d0 u" I* k2 @
现在有更好的选择,IBM AC922,六块v100 16g准系统闲鱼上报5800元。
作者: 沉宝    时间: 2026-4-19 11:10
leekai 发表于 2026-4-18 21:09
6 j$ i0 d  ^$ [( j我去年春节也攒了台x99 双路e5v4+256+2080魔改22g*2,硬盘因为以前装nas不用买,后来淘了Dell730 HP z440, ...

, s; F+ `3 K8 o2080和v100的优点是可以通过NVLink 获得很大的显存。缺点是缺乏 fp8 等先进架构的支持。不过看在那价格上,还能说什么呢?!
" I7 P& T! P9 N+ h7 i# i; J7 y. X5 E9 ~: ^% w: s
今年较之去年,最大的一个变化是像小龙虾之类的智能体流行起来了。通过不断的自我进化,智能体在很多方面可以达到和超过简单使用混合专家模型(MoE)。而智能体的后台模型,如果想跑在自己的机器上,小一些的稠密模型其效果往往好于MoE。与人相比,智能体的AI对话中提示词的长度平均增长了许多倍,从而也就要求更强的KV缓存。如此turboquant正逢其时。8 a9 l2 P. W# W% O" m3 R
6 R  T9 E7 K( J% S) B' {0 J+ l
比TurboQuant更强的还有RotorQuant。感兴趣的话可以关注一下它在你使用的模型上落地的进展。
作者: 大黑蚊子    时间: 2026-4-20 13:43
回首这个帖子/ B4 _! h  g; _$ ?; n
如果去年就下手干他1个T的ECC DDR5内存的话...& {% b6 S0 X, E3 C
# X+ }. E$ A  k$ b
俺就不用今年年初买个128G内存条那么心痛了
作者: leekai    时间: 2026-4-21 17:32
大黑蚊子 发表于 2026-4-20 13:43# f6 }% \$ _1 E$ G3 F) V
回首这个帖子) A/ x) L3 C3 X& {2 r1 c/ s
如果去年就下手干他1个T的ECC DDR5内存的话...

' t# X, j; z! F! S我一直以为自己加钱换了512幸好前两年弄了几根1T 2T 4T的nvme还有SATA SSD,就是去年初看来看去没买氦气盘有点后悔。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2