叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版 - 第3页 - 日志随笔 - 爱吱声

司马梦求 发表于 2025-7-3 01:52:29

本帖最后由司马梦求于 2025-7-3 08:25 编辑

孟词宗发表于 2025-7-2 11:24
要求不同罢了。 DeepSeek R1 0528进步的确很大。 Q2 以上版本算是可用了。问题是如果只是用来搞 Python...

关于单纯的32B模型是否够用，这个可能确实因人而异。不过从实用角度讲，和DeepSeek R1 0528这种比较全面能战的确实没办法比。我们这里讨论的用户当然也不是普通用户，普通用户也不会本地跑大语言模型，而且是671b这种大型模型。
为什么我说单纯的32B模型不太行? 在我搞量化交易这个场景里面，稍微复杂点的场景比如给定若干限制条件，用python实现交易策略这种，不是单纯的策略讨论，或者辅助编程，常见的32B那几个我都试过，连问题本身都不能完全理解，DeepSeek R1 0528的Q2就没有问题，相当能打了，Q1勉强能用，这还是32K这种长context。

另外关于本地跑DeepSeek R1 0528是否是玩票，这个我有点不同意见。当然如果是作为hobby，怎么玩，玩到什么程度是很个人的事情。不过，如果稍加规划，尽可能的优化配置，消除性能瓶颈，提高PP和TG性能，在获得乐趣的同时，这个玩具是有可能同时作为生产力工具的。首先抬个扛，如果只是以把模型跑起来为标准的话，有mmap的存在，其实不需要1.5TB内存。据个例子，128GB RAM都可以跑220GB大小的Q2, 都还有TG 0.6tps。另外工具是否优化？比如我之前提到的那个1TB 内存跑FP8原版DeepSeek R1 0528的配置，他就不是用的常见的Ktransformers，因为是双路CPU, KT需要每个CPU拷贝1份，所以KT跑原版FP8内存不够，只能跑Q4版。视频主跑的是比较小众的fastLLM，不需要两份DeepSeek在内存。先聊这么多

孟词宗 发表于 2025-7-3 22:27:52

本帖最后由孟词宗于 2025-7-4 00:54 编辑

司马梦求发表于 2025-7-3 01:52
你说的挺有道理，其实我只是觉得像 DeepSeek R1 671B FP16那种 0.x token/s 的速度，实在太卡了，交互体 ...

Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好，最多到 3-5t/s。这还是在俺塞了3个 RTX 4000 Ada 共 60GB VRAM 的情况下。当然，Z8 用的本来就是 DDR4 2666, 双路一共才12通道，不像EPYC 90xx 单路就有12通道，而且还用 DDR5. 另外Z8的插槽是 PCIe 3.0 而不是 4.0或5.0。

不过俺对EPYC跑 fp16 的 671b 期望值也不高。网上有人装了 EPYC. 裸机只用 CPU 跑 Q8 能跑出 6-8t/s。
https://www.youtube.com/watch?v=v4810MVGhog

加了Ktransformer并使用 RTX3090 后跑出了 14t/s，但这是跑 Q4 的速度。
https://www.youtube.com/watch?v=fI6uGPcxDbM

他最后花了大价钱买了个最新的 RTX Pro 6000 Blackwell 96GB, 才能把671B Q4 跑出 20t/s。而且他说 Ktransformer 老是出问题。这俺也深有同感。
https://www.youtube.com/watch?v=vfi9LRJxgHs

如果 Q8 裸机是 6-8t/s 的话，fp16 估计最多 3-5t/s。而且随着 Context 被占用还会进一步减慢。前面说过，Context 的大小对速度也会有影响。如果不是 4K 而是 40K的话，速度可能会跌到 2t/s 以下。

如果只是要跑 Q4 版，那个一千美元的丐版也是可以把 Q4 跑出 1.2t/s左右的。当然这是初始速度。随着 Context 增加，速度也会减慢的。

个人使用的话，这个速度也差不多够了。不过从性价比来说，我还是主张租用云服务器的。至少云服务器的硬件比这些家庭版的服务器要好多了。速率下降的曲线也更加平缓。

司马梦求 发表于 2025-7-3 23:07:08

本帖最后由司马梦求于 2025-7-3 10:57 编辑

孟词宗发表于 2025-7-3 09:27
Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好，最多到 3-5 ...

信息量很大，谢谢指教。坦率的说老兄的配置如果算玩票的话，也凡尔赛凡的飞起了，lol

我这个量化策略开发，说是敝竹自珍也好说商业机密也罢，和个人隐私一起，算是本地跑DeepSeek的两个理由。租用的云服务器也许也是条路子，不过真的是否安全也是存疑。

个人使用的话，40K context如果完全版能到5t/s以上就基本可用了。我目前的理解是KT/fastLLM的CPU/GPU混合模式还是最优选项，PP的速度取决于显卡，TG的速度最终瓶颈在内存带宽。B站那个1tb ddr4-3200内存配置大概4000美元，不过国内东西便宜，如果这边攒的话，可能要多不少，5000美元是要的。如果上ddr5再加2000都不一定打住，这个预算的话具体如何分配还要仔细斟酌。

孟词宗 发表于 2025-7-4 01:10:51

司马梦求发表于 2025-7-3 01:52
关于单纯的32B模型是否够用，这个可能确实因人而异。不过从实用角度讲，和DeepSeek R1 0528这种比较全面 ...

你说的 fastLLM 是哪个？叫这个名字的不少。能给个链接吗？

如果你说的是Github上的这个：https://github.com/ztxz16/fastllm 他家的Model在 HuggingFace 上的 Repo 是这个： https://huggingface.co/fastllm ; 貌似这也不是完全版。他家的多是 Q4 和 INT4。所谓的满血只是指 671b 满血，而不是 fp16 671b 满血。

不过就算是 Q4 或 INT4 也挺有意思的，让俺试试，速度能不能提高一点。

司马梦求 发表于 2025-7-4 02:10:37

本帖最后由司马梦求于 2025-7-3 13:24 编辑

孟词宗发表于 2025-7-3 12:10
你说的 fastLLM 是哪个？叫这个名字的不少。能给个链接吗？

如果你说的是Github上的这个：https://gith ...

对，是这个github repo。这个是作者的B站上跑DeepSeek R1 FP8原版的视频
https://www.bilibili.com/video/BV1657VzwEMY

ftllm有个download命令，这个命令就可以下载DeepSeek R1 0528原版
ftllm download deepseek-ai/DeepSeek-R1-0528

孟词宗 发表于 2025-7-8 11:38:41

司马梦求发表于 2025-7-4 02:10
对，是这个github repo。这个是作者的B站上跑DeepSeek R1 FP8原版的视频
https://www.bilibili.com/video ...

试验了这个fastllm。比较好的一点是安装说明写的不错，比 KTransformer要好多了。一键安装也做的很不错，即使包括前置依赖的安装也就几步。而且直接支持 Webui, 比KTransformer 和Ollama 要自己弄前端用户界面要好多了。而且比 KTransformer 好的地方是除了 Linux 还支持 Windows。

和 LM Studio 相比，大多数参数还是要从 CLI Option 来调节，不如 LM Studio 直接在用户界面里调节。从易用性和用户体验来说，虽然比不过 LM Studio，但比 KTransformer 和Ollama 要好得多。

性能上来说，对于 fp16 版 DS-R1-0528 671B 的提升效果和 Ktransformer 没有太大区别。LM Studio 把 KV Cache 和 Flash Attention 都打开后，速度也差不多。我想可能是由于：
1. fp16 版要 1.3TB，俺塞进 Z8 的三个 RTX 4000 Ada 共 60GB 还是不够看的。看他写的安装说明中的例子都是用两张 48GB 的显卡来作例子。也就是至少是 RTX A6000 级别的，还是两张以上，那么至少就是 96 GB。才能有显著不同。如果看前面说的那个装 EYPC 的播主的视频，他也是装了 96GB 的 RTX PRO 6000 BlackWell 才得到显著提升的。可见显存得至少上 96 GB 才能配 671B 的Fastllm。

2. Fastllm 的安装说明里用的例子是双路 EPYC 9004/9005。可见他的实验机器大概率是双路 EPYC 9004/9005 + 双 RTX A6000 48GB 以上（中国的话也可能是双 RTX 3090D 48GB 魔改版）程序大概率也是针对这个配置来优化的。而这个配置，俺前面的帖子里说过了，大致在$19,000美刀左右。

3. Fastllm 跑小模型跑的飞快。 fp16 版性能在俺的Z8上没有明显提升。但他家的 DeepSeek-R1-0528-INT4 版本的速度还是有所提升的。大致翻了一倍的样子。在那个一千美刀的丐版工作站上也跑的不错，最高能跑到5-6t/s。不过Context稍微长点就降到只有 2t/s 左右了。

4. 稳定性还是有一定的问题。它可能没有测试过太多的非 EPYC 9004/9005 机器。因此在俺的各种机器上跑，有时会出现内存溢出。结果APP被卡死，得Force Quit。

5. 说到 mmap，这的确可以用较小的内存跑更大的模型。但这个是有限制的。例如不能指望用128GB来跑 1.22TB 的模型。一般模型最多比内存多一倍了不起了。即使如此，用512GB来跑 1.22TB 也是不现实的。即使能跑起来，速度也拉胯到无法忍受的程度。

不过用 Fastllm 倒是有个惊喜。俺的一个机器是 Intel Ultra 9 285K + 256GB DDR5 5600+ RTX 5060 Ti 16GB 的。居然能跑他家的DeepSeek-R1-0528-INT4 版本 (331 GB), 速度能有 2t/s。如果用Ollama 或 LM Studio 就只有0.3 t/s 了。还真的提高了近十倍。{:191:} 也不知道他们是怎么优化的。

Fastllm 好像是清华的人搞的，还是不错的。希望将来稳定性更好一点。

司马梦求 发表于 2025-7-9 03:54:07

孟词宗发表于 2025-7-7 22:38
试验了这个fastllm。比较好的一点是安装说明写的不错，比 KTransformer要好多了。一键安装也做的很不 ...

赞钻研精神！

俺的一个机器是 Intel Ultra 9 285K + 256GB DDR5 5600+ RTX 5060 Ti 16GB 的。居然能跑他家的DeepSeek-R1-0528-INT4 版本 (331 GB), 速度能有 2t/s。如果用Ollama 或 LM Studio 就只有0.3 t/s 了。还真的提高了近十倍。

话说这个确实有点厉害啊，接近可用了都

孟词宗 发表于 2025-7-9 06:03:14

司马梦求发表于 2025-7-9 03:54
赞钻研精神！

话说这个确实有点厉害啊，接近可用了都

这个必须是他家的 DeepSeek-R1-0528-INT4 版本才行。其他的 INT4 版本就不行。估计他们自己搞了点优化。

另外，Context 只有 4K。 SSD 是 PCIe 5.0x4 有 14.8 GB/S。带宽不少了，已经接近 DDR4 2133 的带宽了。如果准备用较少的 RAM 跑较大的模型，也许可以考虑用 PCIe 5.0x4 SSD RAID。放 4 个SSD的话，理论上可以达到 60 GB/s 左右，超过 DDR5 4800 的 38.4 GB/s。

孟词宗 发表于 2025-7-12 01:32:59

司马梦求发表于 2025-7-9 03:54
赞钻研精神！

发现 fastllm 的一个问题。除了有时候会莫名其妙地内存溢出外，似乎还存在一个内部的 Context 上限。不管跑什么版本的 671B 也不管 Context 设置到多大，一旦累积的 Context 达到 40K 就卡住了。要重启 fastllm 才行。这点不如 LM Studio，Vllm, Ollama 之类的了。

司马梦求 发表于 2025-7-12 03:09:13

孟词宗发表于 2025-7-11 12:32
发现 fastllm 的一个问题。除了有时候会莫名其妙地内存溢出外，似乎还存在一个内部的 Context 上限。不 ...

这个可以去GitHub报告一下，作者修bug挺努力的

孟词宗 发表于 2025-7-22 10:48:44

司马梦求发表于 2025-7-12 03:09
这个可以去GitHub报告一下，作者修bug挺努力的

这个bug很多人都报告了。有一位的观察比较仔细，其实不是 Context 的问题，而是作者对于显存管理不善。明显存在内存泄漏（Memory Leak）。一旦显存用完就卡住了。

这个bug已经报告了快两个月了。但作者几天前放出的版本仍然有同样的问题。fastllm 用C++实现自有算子替代Pytorch。C++快是很快，但要求极高的内存/显存管理水平。一不小心不是内存溢出就是内存泄漏。前面说过，他实验机器大概率是双路 EPYC 9004/9005 + 双 RTX A6000 48GB 以上，共有96GB显存，大概率他从来没碰到过显存用完的问题。

司马梦求 发表于 2025-7-24 01:52:23

本帖最后由司马梦求于 2025-7-24 08:56 编辑

孟词宗发表于 2025-7-21 21:48
这个bug很多人都报告了。有一位的观察比较仔细，其实不是 Context 的问题，而是作者对于显存管理不善。明 ...

这个bug可能有点难度，希望能够解决好。目前作者的最高优先级是增加对GGUF的支持，这样可以直接使用unsloth的量化版。

页: 1 2 [3]

爱吱声's Archiver