设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 234|回复: 13
打印 上一主题 下一主题

[时事热点] 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 前天 11:34 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 孟词宗 于 2025-5-19 06:56 编辑

上回发了《再说 AI 本地部署 》后,@数值分析 同学问:
正在考虑自己买硬件在家搞,有两个问题请教(都不需要精确的答案,有个大概的概念就好):
1.如果搞512G内存的纯cpu方案,完全不用gpu,和gpu相比速度大概能差多少?
2.硬件的需求发展的速度大概能有多快?这个问题是看到4个cpu的过时惠普服务器才卖1000多刀,还慢的无法忍受,如果真的买了堆硬件自己在家搞,会不会不几年就不堪用也卖不出价,得扔了重新再买?


俺的回答是对速度不要抱太大的希望。对于平行处理要求高的大模型,放显存在显卡运行要比放内存用CPU运行快至少百倍以上。Time to First Token 和 token / second 都是如此。当然,这只是 inference 的效率,输出本身并没有那么快。直观上来说,不用显卡,只用内存时,回答显示得比较慢。尺寸小的模型还能达到一秒七八个字,基本和你的阅读速度持平。尺寸大的就比较慢。例如 QwQ-32B 就一秒两三个字。平均Time to First Token要200到300秒。用显存的话则显示极快,超过在线版本的反应和显示速度。另外压缩的尺度越大,速度越快。例如问 QwQ-32B 全尺寸和Q8版同样的问题,Q8 比全尺寸快了一倍左右。

俺一直是主张使用云服务来解决硬件不足问题的。当时俺的结论是:
AI 大模型的发展其实是产生了对于硬件的新要求。这解决了长期以来的硬件算力过剩的问题。但 AI 大模型的尺寸成了制约其在个人级别硬件的应用。硬件的摩尔定律在现在的主流技术构架下近乎失效了。如果只是要让全尺寸万亿参数模型跑起来而不追求速度和精度,那么用 Cluster 的方案或者那个1万5千美元的工作站方案都行。但如果想要速度和精度,那么就得上真正的server了。

至于用过时的服务器。前面说过了,如果家里完全没有基础,从头搞一个服务器机房的投资远远超过你被家里批准的一千多美元   

不论用哪种方案,从投资角度来说,这肯定不会是一次性投资。就像买显卡,要么你一次性投资一个顶级显卡然后用十年,要么你买个便宜的但每两年就换个新的。

所以与其自己搞一大堆硬件,不如租个云端服务器。这样可以随时根据软件需求来升级硬件。


@大黑蚊子  同学的 Mac Studio 512GB 不知道入手了没有。很想知道实际速度如何。从网上的反馈来说,似乎速度也就十几个 Token 每秒。虽然看上去速度不错。也就和阅读速度持平最多了。

那么如果不讲究速度,我们只想把 @大黑蚊子 同学心心念念的 DeepSeek R1 671B Q4 版本跑起来,而且还要求成本控制在 @数值分析 同学要求的一千美元左右是不是有可能性呢?

那位买了人家退役的Dell R930 Server 的播主倒是也提供了一个一千美刀的解决方案。视频如下:https://www.youtube.com/watch?v=RMidGvCZc4g

在这个视频里,这位播主利用了一个旧的 HP Z440 加上一张英伟达 RTX 3090 24GB 的显卡。

另外,如果不用 RTX 3090, 那么就只要 $500, 视频如下: https://www.youtube.com/watch?v=t_hh2-KG6Bw

播主还给出了价格清单和测试结果:
$1000 美元(带 RTX 3090): https://digitalspaceport.com/100 ... mark-z440-and-3090/
$500 美元: https://digitalspaceport.com/500 ... 1b-local-ai-server/

问题是,现在通货膨胀得利害,虽然视频才发布了一两个月,那个 HP Z440 的价格已经翻番了。而 RTX 3090 的价格更是炒上了天。ebay 上最便宜的矿卡也得$650+运费。

而且这位播主玩了个花样。他列出的 HP Z440 一百美元的价格其实是光板机。要搞到 512GB 内存,你还得花 $500 。这样加起来至少得$1,600 左右才能搞定他视频里的那个机器。

当然,这还是比花一万美元的 Mac Pro 512GB RAM 要便宜了七倍。

那么还有没有更便宜的做法呢?一个方法是不要用那个播主的显卡 RTX 3090 24 GB。前一阵英伟达的 H20 被禁止向中国出口了。结果市场上突然冒出了大量的 RTX 5060 。这些显卡经各大权威鉴定玩游戏性能很差,但搞 AI 效果出乎意料的好。因此可以买一个 RTX 5060 TI 16 GB 作为代替。

这个卡在Amazon 最近卖$479 ( GIGABYTE GeForce RTX 5060 Ti WINDFORCE 16G Graphics Card, 16GB 128-bit GDDR7, PCIe 5.0, WINDFORCE Cooling System, GV-N506TWF2-16GD Video Card)

这样价格就回落到一千美刀左右,而且肯定可以跑 DeepSeek R1 671B Q4 版本 了。

如果不喜欢用旧电脑,那么另一个方案则是自己造一台。闲来无事就自己实验了一把:
主板:Huananzhi x99 F8D Plus

阿里巴巴售价 $120

刚看到 Huananzhi 这个牌子,俺习惯性得误读为“淮南子”,心想人家这商标起得有水平,老板肯定是个文化人。后来发现其实是俺拼音不好念错了。人家的中文商标是“华南金牌”。Huananzhi 估计对应的是“华南智”。这是一家专门生产翻新主板的企业。啥教翻新主板?并不是主板是旧的,而是主板用的元器件都是别人处理掉的过时或剩余物资。在中国装机界,又称为“丐版”。

实际上,“丐版”并不“丐”。除了支持双路 Xeon CPU,还有双路 2.5 GB 网络。最重要的是它支持每 CPU 4通道 DDR4 内存。这样两个 CPU 理论上就有 8 通道。这对于我们来说就很重要了。服务器现在的主流还是 DDR4 内存。而一般家用电脑已经是 DDR5 了。但是,家用电脑一般只有 2 通道。目前流行的 DDR5 4800, 理论上在 2 通道下可以跑到 9600, 而DDR4 2400 在 4 通道下则也是 9600。双 CPU 8 通道则还要快一倍,达到 19200。虽然仍然比不上显卡显存的带宽,却也勉强可用了。

这是个双路 Xeon CPU 服务器版。厂家号称最高支持 512 GB。这比一般家用主板高多了。最主要的是有了 512 GB我们就达到了跑 DeepSeek R1 671B Q4 的最低要求了。

CPU: Intel Xeon E5-2695 V4 18-core

阿里巴巴售价$30一个,两个$60

E5-2695 V4实际可以支持最高1.5TB的内存,两个就是3TB。但主板并不支持3TB。

内存:64GB 4DRx4 2400 Mhz DDR4 PC4-2400T-LD1 LRDIMM Server RAM x8
阿里巴巴售价 $15一条,8条$120

当然,如果不想等,也可以在美国买: A-Tech 512GB Kit (8 x 64GB) 4Rx4 DDR4-2400 PC4-19200L LRDIMM ECC Load Reduced 1.2V 288-Pin Server Memory RAM 512 GB的 Kit $399

SSD: 1TB NVME Pcie 4.0x4
这个在美国买就行。一般$50左右就搞定了。

CPU Cooler:COOLSERVER R64 Server CPU Cooler 180w 4 Heatpipes Workstation Radiator PWM 4PIN Cooling Fan for Intel LGA2011

阿里巴巴售价$14.5 一个,两个$29

机箱: E-ATX SNOWMAN CS017 EATX ITX PC Case ATX Gaming Computer Desktop Mid Tower Dual Tempered Glass Mesh Face Reversed with 6ARGB Fans
阿里巴巴售价 $15.78

电源:850W 以上。
这个在美国买就行,一般 $69 左右。

显卡:Xeon E5 是没有核显的。如果想要利用最新的英伟达技术,那么可以买前面推荐的 RTX 5060 TI 16 GB

这个卡在Amazon 最近卖$479 ( GIGABYTE GeForce RTX 5060 Ti WINDFORCE 16G Graphics Card, 16GB 128-bit GDDR7, PCIe 5.0, WINDFORCE Cooling System, GV-N506TWF2-16GD Video Card)

如果要买任何30xx以上的英伟达显卡,都不要去阿里巴巴买。原因是阿里巴巴的卡大多是假货。即使是真的,英伟达销往中国的显卡也是阉割版。而且价格比美国还高。

如果有预算考虑,那么也可以买一个翻新的 AMD RX 580. 这卡在阿里上特别便宜, 8GB 版本才$48 。


总计:
方案一:用英伟达 GeForce RTX 5060 Ti 16 GB



方案二:用翻新的 AMD RX 580


当然这些价格没有计算运费和川总要收的关税以及在美加各地的销售税。大家如果有兴趣可以自己调节。大致如果全部都在美国买的话,方案一会上涨到$1,200 左右,而方案二会上涨为$830 左右。

装起来之后进行测试,不但可以跑 DeepSeek R1 671B Q4 版本,也可以跑 DeepSeek R1 671B Q5 版本。更可以跑刚出来的 Qwen3 -235B-A22B 的fp16 全尺寸版。Qwen3 -235B-A22B 号称不比 DeepSeek R1 差。当然,跑起来的速度都不快。即使是方案一,也就和那个播主的3090机器基本持平。而 方案二 的 RX580 由于没有被各大 AI 软件优化过,不但不是助力,反而会造成不少问题。因此在运行时要禁用 GPU,只跑 CPU。这时候 双 CPU 36 核(72 逻辑核)的威力就显现出来了,居然能跑 0.62 个 token 每秒 (笑),first token 69 秒。

不过,九百多美元的方案一,五百美元出头的方案二,也就不要指望啥性能了。这个速度干正经事是不行的。但用来娱乐一下还是不错的。领导就调侃俺说,这是你的成年人LEGO。

既然不追求速度,俺还实验了在本地部署 fp16 全尺寸的 DeepSeek R1 671B 。当然,fp16 版是无法用这些不到一千的方案部署的。预算起码要三千以上。俺入手了一个翻新的 HP Z8 工作站,把内存扩展到 1.5 TB,换了显卡。现在啥大模型的 fp16 版都可以跑了。速度慢点,但娱乐性很高。而且这个实验说明不需要那个播主推荐的 Dell R930 Server ,只需要 HP Z8 工作站就行了。

顺便说一句,用这些家庭版本地部署方案的时候,模型越大,加载时间越长。Q5 版本有近 500 GB,不论什么机器都需要近 30 分钟才能加载到内存中。而 fp16 的 DeepSeek R1 671B 有 1.3 TB,需要一个多小时才能加载完毕。对很多人来说,玩本地部署 AI 吐字慢不算大问题,但加载慢可能很多人就受不了了。

这篇算是对这段时间玩 AI 本地部署的小结。下一步仍然完成那个 Mini PC 的 cluster。到时候 叕说 AI 本地部署吧。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

评分

参与人数 8爱元 +70 学识 +2 收起 理由
大黑蚊子 + 6 谢谢!有你,爱坛更精彩
唐家山 + 4
tanis + 4 伙呆了
landlord + 12 伙呆了
老财迷 + 8

查看全部评分

  • TA的每日心情
    无聊
    2024-11-20 02:25
  • 签到天数: 43 天

    [LV.5]元婴

    沙发
    发表于 6 小时前 | 只看该作者
    x99主板的正确打开方式是用E5V3CPU打鸡血BIOS
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 5 小时前 | 只看该作者
    怎这样呢 发表于 2025-5-19 05:25
    x99主板的正确打开方式是用E5V3CPU打鸡血BIOS

    E5V3虽然便宜,但内核数和带宽都比同序列号的 V4 版本低。而且 V4 支持的 DDR4 的频率也高点。从价格上来说也没有多大优势,V3 和 V4 差几美元而已。

    鸡血 BIOS 超频却很少能全CPU锁频,真跑大模型的时候没啥用处。

    Xeon 作为服务器 CPU,它的目的不是给发烧友超频,而是要求稳定性。有些所谓的鸡血 BIOS 其实就是厂家的对该主板的后续 BIOS,修正了出厂 BIOS 的一些漏洞,在性能上有所提高。这时候更新到最新版本的 BIOS 的确能提高性能。而另外一些鸡血 BIOS 以牺牲稳定性为代价就不值得了。尤其是 Xeon, 官方不支持超频。即使你强行超频了,稳定性下降,性能反而没有提升,得不偿失。

    另外,很多鸡血 BIOS 的所谓“性能提升”,例如玩游戏的时候 FPS 翻了一倍之类的,其实是优化了的CPU和GPU的数据传输。我们的这两个方案中,家用 GPU 基本分担不了多少负载,除非你上企业级的多个 GPU 联合组群,软件还得是专门优化过的。绝大多数负载还是在 CPU 上跑,尤其是方案二。BIOS 在这种情况下对 CPU 性能提升微乎其微。

    如果不是用来玩游戏,把BIOS更新到最新的厂家正式BIOS也就可以了。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    地板
    发表于 4 小时前 | 只看该作者
    上个月买了5070TI,AUD1800,美刀大概1160,当时还限购一个。早知道5060TI也有16GB就等等好了。
    话说回来幸好限购就只买了一个,插上机器之后发现虽然有两个卡槽,但是显卡太宽,真插满两个的话一个问题是GPU之间几乎没有空隙,对散热不利,还有一个是几乎占了所有插槽,插NVME的卡就没位置了。总之现在只有一个卡,先玩玩吧。两块5070估计也没有什么本质改善。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
     楼主| 发表于 3 小时前 | 只看该作者
    本帖最后由 孟词宗 于 2025-5-19 08:25 编辑
    雷声 发表于 2025-5-19 07:51
    上个月买了5070TI,AUD1800,美刀大概1160,当时还限购一个。早知道5060TI也有16GB就等等好了。
    话说回来幸 ...


    如果不玩游戏,俺以前推荐过 RTX 4000 Ada 20GB。这是个单槽卡有20GB, 单卡功耗才 130瓦, 比5060 ti 的 180瓦低多了,更是只有5070 ti 的300瓦的40%。$350-$500美刀的主板一般会有3个以上的PCIe x16 插槽。可以插好几个。目前美国的价格是$1,279。虽然这卡相当于 4070 Ti, 但架不住性价比好,显存多。在本地跑 AI,尤其是大模型,显存容量比GPU速度更重要。

    现在5060 Ti 16GB 出来了。倒是又能玩游戏,又能玩 AI。从目前趋势看。这个“低端”卡还会继续降价。毕竟官方指导价是 $429。5060 Ti 是众英伟达显卡中少有的价格持续走低的卡,现在只比官方指导价高$50了。至于沙特签的那个大单,谁都知道沙特在沙漠里挖出了阳澄湖 而 H20 这种阉割版,王爷肯定是不要的。而黄皮衣宣布要继续阉割 H20 以图合规出口中国。俺都不知道中国会有多傻才会不要大闸蟹而要小螃鲚。预计5060 Ti的价格还会持续走低。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2025-5-3 00:05
  • 签到天数: 1130 天

    [LV.10]大乘

    6#
    发表于 2 小时前 | 只看该作者
    雷声 发表于 2025-5-19 07:51
    上个月买了5070TI,AUD1800,美刀大概1160,当时还限购一个。早知道5060TI也有16GB就等等好了。
    话说回来幸 ...

    两块5070没有啥用吧,又没有nvlink
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2025-5-3 00:05
  • 签到天数: 1130 天

    [LV.10]大乘

    7#
    发表于 2 小时前 | 只看该作者
    老兄你牛,我...我是言语的巨人行动的矮子

    主要问题还是家里太小了,放个服务器估计全家变机场得被老婆骂死...

    还有就是前段时间钻空子搞了个google one的账号,能用Gemini 2.5 Pro,且先这么着吧
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
    发表于 2 小时前 | 只看该作者
    孟词宗 发表于 2025-5-19 08:19
    如果不玩游戏,俺以前推荐过 RTX 4000 Ada 20GB。这是个单槽卡有20GB, 单卡功耗才 130瓦, 比5060 ti 的 1 ...

    是的,我在4000和5070之间犹豫了很长时间。 最终败给了预算。 4000还是贵不少,而且单卡慢一些。刚好手上有个前前老板给的一个小项目要做目标检出的training。游戏是自从结婚之后就没玩了。上上周给儿子买了个新的游戏本(他自己用的是个用了5年的破二手笔记本,键盘都按碎了一个),沾沾自喜地跟他说这个玩游戏很好的。他很茫然地说啊。。。谢谢。我就很挫败。不知道现在的小崽子们喜欢干啥。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
    发表于 2 小时前 | 只看该作者
    大黑蚊子 发表于 2025-5-19 09:23
    两块5070没有啥用吧,又没有nvlink

    训练快一倍,而且刚好卡住预算上限。做大模型的话。。。应该也能快一点吧。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2025-5-3 00:05
  • 签到天数: 1130 天

    [LV.10]大乘

    10#
    发表于 2 小时前 | 只看该作者
    雷声 发表于 2025-5-19 09:52
    是的,我在4000和5070之间犹豫了很长时间。 最终败给了预算。 4000还是贵不少,而且单卡慢一些。刚好手上 ...

    如果是搞Ktransfomer的话,他们在传Intel有一个B60要出来,24G的,估计会更适合,而且成本可控
    但就不知道能不能面向零售市场
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    11#
     楼主| 发表于 2 小时前 | 只看该作者
    大黑蚊子 发表于 2025-5-19 09:23
    两块5070没有啥用吧,又没有nvlink

    虽然5070不支持 nvlink, 但插两张卡以上的时候,主板支持的话,是会在 nVidia control panel 里显示 SLI configuration 的。把 SLI 设定为 “Maximize 3D Performance”。 虽然不会像 nvlink 那样显示为一张卡并合并显存,但可以在 CUDA 层面上协同。而 Ollama, LM Studio 之类支持 Multiple GPU。加了 SLI 之后性能会更好一些,可以分配更多的 Model Layer 到 GPU 上。这样速度一般会更快。

    所以俺以前推荐 RTX 4000 Ada。一般好的主板能塞三四个。功耗单卡才130瓦,三个加起来也就才相当于一个3090。而三个卡加起来 60 GB,Ollama 可以跑很多 LLM 了。如果你要搞训练(俗称炼丹)的话,三个卡会让你体会到为啥这是最受欢迎的工作站卡的。
    回复 支持 1 反对 0

    使用道具 举报

  • TA的每日心情
    奋斗
    2025-5-3 00:05
  • 签到天数: 1130 天

    [LV.10]大乘

    12#
    发表于 2 小时前 | 只看该作者
    孟词宗 发表于 2025-5-19 10:06
    虽然5070不支持 nvlink, 但插两张卡以上的时候,主板支持的话,是会在 nVidia control panel 里显示 SLI  ...

    赞,受教了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2024-11-20 02:25
  • 签到天数: 43 天

    [LV.5]元婴

    13#
    发表于 1 小时前 | 只看该作者
    孟词宗 发表于 2025-5-19 06:19
    E5V3虽然便宜,但内核数和带宽都比同序列号的 V4 版本低。而且 V4 支持的 DDR4 的频率也高点。从价格上来 ...

    扫了眼ebay,两者的价格其实是倒挂的,18核的2696v3跟20核的2698v4都是65刀上下,而同为18核的2697v4只需要35刀,从垃圾佬的角度来看v3显然还是更受欢迎的。

    我的理解鸡血bios不是超频,而主要是把全核睿频提高到跟单核一个水平,稳定性肯定有损失。不过这个玩法能够广为流传,可玩性应该还不错的。另外要说那个年代的DDR3和DDR4,恐怕没有太大的差别,v4最高支持2133还是多少来着?刨去更高的延迟,不见得好过DDR3 1866
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    14#
     楼主| 发表于 半小时前 | 只看该作者
    怎这样呢 发表于 2025-5-19 10:47
    扫了眼ebay,两者的价格其实是倒挂的,18核的2696v3跟20核的2698v4都是65刀上下,而同为18核的2697v4只需 ...


    V4 最高支持 DDR4 2666。DDR3 一般只有 1866。另外,价格是说同型号的不同版本,例如2697v3 (最低 $20)和 2697v4 (最低 $25)。但并不是说不同序列的 v3 和 v4 价格相近。虽然都是 Xeon, 但有些型号的 v3 的性能比 其他型号的v4 更好,或更受欢迎一点。

    内存也不是光看延迟。在服务器或工作站环境下,多通道对提升内存速度影响更大。例如前面举的那个8通道。用DDR4 2400, 八通道可达19200, 而1866就只有14928。虽然相差倍数没变,但互相之间的差值增加了。好比多年前房价一万一平米,工资一千一个月,差十倍。现在十万一平米,工资一万一个月,仍然差十倍,但差值从九千涨到了九万。

    至于鸡血 BIOS,俺不是说了"很少能全CPU锁频,真跑大模型的时候没啥用处。"? 说穿了,就是把 CPU 一直放在类似于 Turbo Mode 上跑。这对稳定性伤害很大。玩游戏无所谓。这些老旧 Xeon 以前最大的用处就是用来玩游戏。说实在的,Xeon 就不是用来干这个的。只不过大家觉得一个 Xeon 的价格是家用 CPU 的十倍甚至百倍,自然性能是绝对好的。实际上则类似于半挂大卡价格比家用轿贵的多,但最高时速、加速度、拐弯和操控都未必比得过家用汽车一样。现在有 LLM 了,这些老旧 Xeon 才算又有新的用途了。倒不是说它们的性能更适合跑 LLM,而是它们支持的内存远远大于家用 CPU,可以用低价达到大模型要求的内存标准罢了。

    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-19 12:17 , Processed in 0.039343 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表