司马梦求 发表于 2025-7-3 01:52:29

本帖最后由 司马梦求 于 2025-7-3 08:25 编辑

孟词宗 发表于 2025-7-2 11:24
要求不同罢了。 DeepSeek R1 0528进步的确很大。 Q2 以上版本算是可用了。 问题是如果只是用来搞 Python...

关于单纯的32B模型是否够用,这个可能确实因人而异。不过从实用角度讲,和DeepSeek R1 0528这种比较全面能战的确实没办法比。我们这里讨论的用户当然也不是普通用户,普通用户也不会本地跑大语言模型,而且是671b这种大型模型。
为什么我说单纯的32B模型不太行? 在我搞量化交易这个场景里面,稍微复杂点的场景比如给定若干限制条件,用python实现交易策略这种,不是单纯的策略讨论,或者辅助编程,常见的32B那几个我都试过,连问题本身都不能完全理解,DeepSeek R1 0528的Q2就没有问题,相当能打了,Q1勉强能用,这还是32K这种长context。

另外关于本地跑DeepSeek R1 0528是否是玩票,这个我有点不同意见。当然如果是作为hobby,怎么玩,玩到什么程度是很个人的事情。不过,如果稍加规划,尽可能的优化配置,消除性能瓶颈,提高PP和TG性能,在获得乐趣的同时,这个玩具是有可能同时作为生产力工具的。首先抬个扛,如果只是以把模型跑起来为标准的话,有mmap的存在,其实不需要1.5TB内存。据个例子,128GB RAM都可以跑220GB大小的Q2, 都还有TG 0.6tps。另外工具是否优化?比如我之前提到的那个1TB 内存跑FP8原版DeepSeek R1 0528的配置,他就不是用的常见的Ktransformers,因为是双路CPU, KT需要每个CPU拷贝1份,所以KT跑原版FP8内存不够,只能跑Q4版。视频主跑的是比较小众的fastLLM,不需要两份DeepSeek在内存。先聊这么多

孟词宗 发表于 2025-7-3 22:27:52

本帖最后由 孟词宗 于 2025-7-4 00:54 编辑

司马梦求 发表于 2025-7-3 01:52
你说的挺有道理,其实我只是觉得像 DeepSeek R1 671B FP16那种 0.x token/s 的速度,实在太卡了,交互体 ...

Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好,最多到 3-5t/s。 这还是在俺塞了3个 RTX 4000 Ada 共 60GB VRAM 的情况下。当然,Z8 用的本来就是 DDR4 2666, 双路一共才12通道,不像EPYC 90xx 单路就有12通道,而且还用 DDR5. 另外Z8的插槽是 PCIe 3.0 而不是 4.0或5.0。

不过俺对EPYC跑 fp16 的 671b 期望值也不高。 网上有人装了 EPYC. 裸机只用 CPU 跑 Q8 能跑出 6-8t/s。
https://www.youtube.com/watch?v=v4810MVGhog

加了Ktransformer并使用 RTX3090 后跑出了 14t/s,但这是跑 Q4 的速度。
https://www.youtube.com/watch?v=fI6uGPcxDbM

他最后花了大价钱买了个最新的 RTX Pro 6000 Blackwell 96GB, 才能把671B Q4 跑出 20t/s。 而且他说 Ktransformer 老是出问题。 这俺也深有同感。
https://www.youtube.com/watch?v=vfi9LRJxgHs

如果 Q8 裸机是 6-8t/s 的话,fp16 估计最多 3-5t/s。而且随着 Context 被占用还会进一步减慢。 前面说过,Context 的大小对速度也会有影响。 如果不是 4K 而是 40K的话,速度可能会跌到 2t/s 以下。

如果只是要跑 Q4 版,那个一千美元的丐版也是可以把 Q4 跑出 1.2t/s左右的。 当然这是初始速度。随着 Context 增加,速度也会减慢的。

个人使用的话,这个速度也差不多够了。 不过从性价比来说,我还是主张租用云服务器的。 至少云服务器的硬件比这些家庭版的服务器要好多了。速率下降的曲线也更加平缓。

司马梦求 发表于 2025-7-3 23:07:08

本帖最后由 司马梦求 于 2025-7-3 10:57 编辑

孟词宗 发表于 2025-7-3 09:27
Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好,最多到 3-5 ...

信息量很大,谢谢指教。坦率的说老兄的配置如果算玩票的话,也凡尔赛凡的飞起了,lol

我这个量化策略开发,说是敝竹自珍也好说商业机密也罢,和个人隐私一起,算是本地跑DeepSeek的两个理由。租用的云服务器也许也是条路子,不过真的是否安全也是存疑。

个人使用的话,40K context如果完全版能到5t/s以上就基本可用了。我目前的理解是KT/fastLLM的CPU/GPU混合模式还是最优选项,PP的速度取决于显卡,TG的速度最终瓶颈在内存带宽。B站那个1tb ddr4-3200内存配置大概4000美元,不过国内东西便宜,如果这边攒的话,可能要多不少,5000美元是要的。如果上ddr5再加2000都不一定打住,这个预算的话具体如何分配还要仔细斟酌。

孟词宗 发表于 2025-7-4 01:10:51

司马梦求 发表于 2025-7-3 01:52
关于单纯的32B模型是否够用,这个可能确实因人而异。不过从实用角度讲,和DeepSeek R1 0528这种比较全面 ...

你说的 fastLLM 是哪个?叫这个名字的不少。 能给个链接吗?

如果你说的是Github上的这个:https://github.com/ztxz16/fastllm 他家的Model在 HuggingFace 上的 Repo 是这个: https://huggingface.co/fastllm ; 貌似这也不是完全版。 他家的多是 Q4 和 INT4。 所谓的满血只是指 671b 满血,而不是 fp16 671b 满血。

不过就算是 Q4 或 INT4 也挺有意思的,让俺试试,速度能不能提高一点。

司马梦求 发表于 2025-7-4 02:10:37

本帖最后由 司马梦求 于 2025-7-3 13:24 编辑

孟词宗 发表于 2025-7-3 12:10
你说的 fastLLM 是哪个?叫这个名字的不少。 能给个链接吗?

如果你说的是Github上的这个:https://gith ...

对,是这个github repo。这个是作者的B站上跑DeepSeek R1 FP8原版的视频
https://www.bilibili.com/video/BV1657VzwEMY

ftllm有个download命令,这个命令就可以下载DeepSeek R1 0528原版
ftllm download deepseek-ai/DeepSeek-R1-0528

孟词宗 发表于 7 天前

司马梦求 发表于 2025-7-4 02:10
对,是这个github repo。这个是作者的B站上跑DeepSeek R1 FP8原版的视频
https://www.bilibili.com/video ...

试验了这个fastllm。比较好的一点是安装说明写的不错,比 KTransformer要好多了。 一键安装也做的很不错,即使包括前置依赖的安装也就几步。 而且直接支持 Webui, 比KTransformer 和Ollama 要自己弄前端用户界面要好多了。而且比 KTransformer 好的地方是除了 Linux 还支持 Windows。

和 LM Studio 相比,大多数参数还是要从 CLI Option 来调节,不如 LM Studio 直接在用户界面里调节。 从易用性和用户体验来说,虽然比不过 LM Studio,但比 KTransformer 和Ollama 要好得多。

性能上来说,对于 fp16 版 DS-R1-0528 671B 的提升效果和 Ktransformer 没有太大区别。LM Studio 把 KV Cache 和 Flash Attention 都打开后,速度也差不多。 我想可能是由于:
1. fp16 版要 1.3TB,俺塞进 Z8 的三个 RTX 4000 Ada 共 60GB 还是不够看的。看他写的安装说明中的例子都是用两张 48GB 的显卡来作例子。 也就是至少是 RTX A6000 级别的,还是两张以上,那么至少就是 96 GB。 才能有显著不同。 如果看前面说的那个装 EYPC 的播主的视频,他也是装了 96GB 的 RTX PRO 6000 BlackWell 才得到显著提升的。 可见显存得至少上 96 GB 才能配 671B 的Fastllm。

2. Fastllm 的安装说明里用的例子是双路 EPYC 9004/9005。 可见他的实验机器大概率是双路 EPYC 9004/9005 + 双 RTX A6000 48GB 以上(中国的话也可能是 双 RTX 3090D 48GB 魔改版)程序大概率也是针对这个配置来优化的。 而这个配置,俺前面的帖子里说过了,大致在$19,000美刀左右。

3. Fastllm 跑小模型跑的飞快。 fp16 版性能在俺的Z8上没有明显提升。但他家的 DeepSeek-R1-0528-INT4 版本的速度还是有所提升的。 大致翻了一倍的样子。 在那个 一千美刀的丐版工作站上也跑的不错,最高能跑到5-6t/s。 不过Context稍微长点就降到只有 2t/s 左右了。

4. 稳定性还是有一定的问题。 它可能没有测试过太多的非 EPYC 9004/9005 机器。因此在俺的各种机器上跑,有时会出现内存溢出。结果APP被卡死,得Force Quit。

5. 说到 mmap,这的确可以用较小的内存跑更大的模型。但这个是有限制的。例如不能指望用128GB来跑 1.22TB 的模型。 一般模型最多比内存多一倍了不起了。 即使如此,用512GB来跑 1.22TB 也是不现实的。 即使能跑起来,速度也拉胯到无法忍受的程度。

不过用 Fastllm 倒是有个惊喜。 俺的一个机器是 Intel Ultra 9 285K + 256GB DDR5 5600+ RTX 5060 Ti 16GB 的。 居然能跑他家的DeepSeek-R1-0528-INT4 版本 (331 GB), 速度能有 2t/s。 如果用Ollama 或 LM Studio 就只有0.3 t/s 了。 还真的提高了近十倍。{:191:} 也不知道他们是怎么优化的。

Fastllm 好像是清华的人搞的,还是不错的。 希望将来稳定性更好一点。

司马梦求 发表于 6 天前

孟词宗 发表于 2025-7-7 22:38
试验了这个fastllm。比较好的一点是安装说明写的不错,比 KTransformer要好多了。 一键安装也做的很不 ...

赞钻研精神!

俺的一个机器是 Intel Ultra 9 285K + 256GB DDR5 5600+ RTX 5060 Ti 16GB 的。 居然能跑他家的DeepSeek-R1-0528-INT4 版本 (331 GB), 速度能有 2t/s。 如果用Ollama 或 LM Studio 就只有0.3 t/s 了。 还真的提高了近十倍。

话说这个确实有点厉害啊,接近可用了都

孟词宗 发表于 6 天前

司马梦求 发表于 2025-7-9 03:54
赞钻研精神!




话说这个确实有点厉害啊,接近可用了都

这个必须是他家的 DeepSeek-R1-0528-INT4 版本才行。其他的 INT4 版本就不行。 估计他们自己搞了点优化。

另外,Context 只有 4K。 SSD 是 PCIe 5.0x4 有 14.8 GB/S。 带宽不少了,已经接近 DDR4 2133 的带宽了。 如果准备用较少的 RAM 跑较大的模型,也许可以考虑用 PCIe 5.0x4 SSD RAID。 放 4 个SSD的话,理论上可以达到 60 GB/s 左右,超过 DDR5 4800 的 38.4 GB/s。

孟词宗 发表于 3 天前

司马梦求 发表于 2025-7-9 03:54
赞钻研精神!




发现 fastllm 的一个问题。除了有时候会莫名其妙地内存溢出外,似乎还存在一个内部的 Context 上限。 不管跑什么版本的 671B 也不管 Context 设置到多大,一旦累积的 Context 达到 40K 就卡住了。要重启 fastllm 才行。 这点不如 LM Studio,Vllm, Ollama 之类的了。

司马梦求 发表于 3 天前

孟词宗 发表于 2025-7-11 12:32
发现 fastllm 的一个问题。除了有时候会莫名其妙地内存溢出外,似乎还存在一个内部的 Context 上限。 不 ...

这个可以去GitHub报告一下,作者修bug挺努力的
页: 1 2 [3]
查看完整版本: 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版