设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
123
返回列表 发新帖
楼主: 孟词宗
打印 上一主题 下一主题

[时事热点] 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版

[复制链接]
  • TA的每日心情
    奋斗
    2021-6-5 00:39
  • 签到天数: 901 天

    [LV.10]大乘

    41#
    发表于 2025-7-3 01:52:29 | 只看该作者
    本帖最后由 司马梦求 于 2025-7-3 08:25 编辑
    孟词宗 发表于 2025-7-2 11:24
    要求不同罢了。 DeepSeek R1 0528进步的确很大。 Q2 以上版本算是可用了。 问题是如果只是用来搞 Python  ...


    关于单纯的32B模型是否够用,这个可能确实因人而异。不过从实用角度讲,和DeepSeek R1 0528这种比较全面能战的确实没办法比。我们这里讨论的用户当然也不是普通用户,普通用户也不会本地跑大语言模型,而且是671b这种大型模型。
    为什么我说单纯的32B模型不太行? 在我搞量化交易这个场景里面,稍微复杂点的场景比如给定若干限制条件,用python实现交易策略这种,不是单纯的策略讨论,或者辅助编程,常见的32B那几个我都试过,连问题本身都不能完全理解,DeepSeek R1 0528的Q2就没有问题,相当能打了,Q1勉强能用,这还是32K这种长context。

    另外关于本地跑DeepSeek R1 0528是否是玩票,这个我有点不同意见。当然如果是作为hobby,怎么玩,玩到什么程度是很个人的事情。不过,如果稍加规划,尽可能的优化配置,消除性能瓶颈,提高PP和TG性能,在获得乐趣的同时,这个玩具是有可能同时作为生产力工具的。首先抬个扛,如果只是以把模型跑起来为标准的话,有mmap的存在,其实不需要1.5TB内存。据个例子,128GB RAM都可以跑220GB大小的Q2, 都还有TG 0.6tps。另外工具是否优化?比如我之前提到的那个1TB 内存跑FP8原版DeepSeek R1 0528的配置,他就不是用的常见的Ktransformers,因为是双路CPU, KT需要每个CPU拷贝1份,所以KT跑原版FP8内存不够,只能跑Q4版。视频主跑的是比较小众的fastLLM,不需要两份DeepSeek在内存。先聊这么多
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    42#
     楼主| 发表于 2025-7-3 22:27:52 | 只看该作者
    本帖最后由 孟词宗 于 2025-7-4 00:54 编辑
    司马梦求 发表于 2025-7-3 01:52
    你说的挺有道理,其实我只是觉得像 DeepSeek R1 671B FP16那种 0.x token/s 的速度,实在太卡了,交互体 ...


    Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好,最多到 3-5t/s。 这还是在俺塞了3个 RTX 4000 Ada 共 60GB VRAM 的情况下。  当然,Z8 用的本来就是 DDR4 2666, 双路一共才12通道,不像EPYC 90xx 单路就有12通道,而且还用 DDR5. 另外Z8的插槽是 PCIe 3.0 而不是 4.0或5.0。

    不过俺对EPYC跑 fp16 的 671b 期望值也不高。 网上有人装了 EPYC. 裸机只用 CPU 跑 Q8 能跑出 6-8t/s。
    https://www.youtube.com/watch?v=v4810MVGhog

    加了Ktransformer并使用 RTX3090 后跑出了 14t/s,但这是跑 Q4 的速度。
    https://www.youtube.com/watch?v=fI6uGPcxDbM

    他最后花了大价钱买了个最新的 RTX Pro 6000 Blackwell 96GB, 才能把671B Q4 跑出 20t/s。 而且他说 Ktransformer 老是出问题。 这俺也深有同感。
    https://www.youtube.com/watch?v=vfi9LRJxgHs

    如果 Q8 裸机是 6-8t/s 的话,fp16 估计最多 3-5t/s。  而且随着 Context 被占用还会进一步减慢。 前面说过,Context 的大小对速度也会有影响。 如果不是 4K 而是 40K的话,速度可能会跌到 2t/s 以下。

    如果只是要跑 Q4 版,那个一千美元的丐版也是可以把 Q4 跑出 1.2t/s左右的。 当然这是初始速度。随着 Context 增加,速度也会减慢的。

    个人使用的话,这个速度也差不多够了。 不过从性价比来说,我还是主张租用云服务器的。 至少云服务器的硬件比这些家庭版的服务器要好多了。速率下降的曲线也更加平缓。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-6-5 00:39
  • 签到天数: 901 天

    [LV.10]大乘

    43#
    发表于 2025-7-3 23:07:08 | 只看该作者
    本帖最后由 司马梦求 于 2025-7-3 10:57 编辑
    孟词宗 发表于 2025-7-3 09:27
    Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好,最多到 3-5 ...


    信息量很大,谢谢指教。坦率的说老兄的配置如果算玩票的话,也凡尔赛凡的飞起了,lol

    我这个量化策略开发,说是敝竹自珍也好说商业机密也罢,和个人隐私一起,算是本地跑DeepSeek的两个理由。租用的云服务器也许也是条路子,不过真的是否安全也是存疑。

    个人使用的话,40K context如果完全版能到5t/s以上就基本可用了。我目前的理解是KT/fastLLM的CPU/GPU混合模式还是最优选项,PP的速度取决于显卡,TG的速度最终瓶颈在内存带宽。B站那个1tb ddr4-3200内存配置大概4000美元,不过国内东西便宜,如果这边攒的话,可能要多不少,5000美元是要的。如果上ddr5再加2000都不一定打住,这个预算的话具体如何分配还要仔细斟酌。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    44#
     楼主| 发表于 2025-7-4 01:10:51 | 只看该作者
    司马梦求 发表于 2025-7-3 01:52
    关于单纯的32B模型是否够用,这个可能确实因人而异。不过从实用角度讲,和DeepSeek R1 0528这种比较全面 ...

    你说的 fastLLM 是哪个?叫这个名字的不少。 能给个链接吗?

    如果你说的是Github上的这个:https://github.com/ztxz16/fastllm 他家的Model在 HuggingFace 上的 Repo 是这个: https://huggingface.co/fastllm ; 貌似这也不是完全版。 他家的多是 Q4 和 INT4。 所谓的满血只是指 671b 满血,而不是 fp16 671b 满血。

    不过就算是 Q4 或 INT4 也挺有意思的,让俺试试,速度能不能提高一点。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-6-5 00:39
  • 签到天数: 901 天

    [LV.10]大乘

    45#
    发表于 2025-7-4 02:10:37 | 只看该作者
    本帖最后由 司马梦求 于 2025-7-3 13:24 编辑
    孟词宗 发表于 2025-7-3 12:10
    你说的 fastLLM 是哪个?叫这个名字的不少。 能给个链接吗?

    如果你说的是Github上的这个:https://gith ...


    对,是这个github repo。这个是作者的B站上跑DeepSeek R1 FP8原版的视频
    https://www.bilibili.com/video/BV1657VzwEMY

    ftllm有个download命令,这个命令就可以下载DeepSeek R1 0528原版
    ftllm download deepseek-ai/DeepSeek-R1-0528
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    46#
     楼主| 发表于 7 天前 | 只看该作者
    司马梦求 发表于 2025-7-4 02:10
    对,是这个github repo。这个是作者的B站上跑DeepSeek R1 FP8原版的视频
    https://www.bilibili.com/video ...

    试验了这个fastllm。  比较好的一点是安装说明写的不错,比 KTransformer要好多了。 一键安装也做的很不错,即使包括前置依赖的安装也就几步。 而且直接支持 Webui, 比KTransformer 和  Ollama 要自己弄前端用户界面要好多了。  而且比 KTransformer 好的地方是除了 Linux 还支持 Windows。

    和 LM Studio 相比,大多数参数还是要从 CLI Option 来调节,不如 LM Studio 直接在用户界面里调节。 从易用性和用户体验来说,虽然比不过 LM Studio,但比 KTransformer 和  Ollama 要好得多。

    性能上来说,对于 fp16 版 DS-R1-0528 671B 的提升效果和 Ktransformer 没有太大区别。  LM Studio 把 KV Cache 和 Flash Attention 都打开后,速度也差不多。 我想可能是由于:
    1. fp16 版要 1.3TB,俺塞进 Z8 的三个 RTX 4000 Ada 共 60GB 还是不够看的。  看他写的安装说明中的例子都是用两张 48GB 的显卡来作例子。 也就是至少是 RTX A6000 级别的,还是两张以上,那么至少就是 96 GB。 才能有显著不同。 如果看前面说的那个装 EYPC 的播主的视频,他也是装了 96GB 的 RTX PRO 6000 BlackWell 才得到显著提升的。 可见显存得至少上 96 GB 才能配 671B 的Fastllm。

    2. Fastllm 的安装说明里用的例子是双路 EPYC 9004/9005。 可见他的实验机器大概率是  双路 EPYC 9004/9005 + 双 RTX A6000 48GB 以上(中国的话也可能是 双 RTX 3090D 48GB 魔改版)程序大概率也是针对这个配置来优化的。 而这个配置,俺前面的帖子里说过了,大致在$19,000美刀左右。

    3. Fastllm 跑小模型跑的飞快。 fp16 版性能在俺的Z8上没有明显提升。但他家的 DeepSeek-R1-0528-INT4 版本的速度还是有所提升的。 大致翻了一倍的样子。 在那个 一千美刀的丐版工作站上也跑的不错,最高能跑到5-6t/s。 不过Context稍微长点就降到只有 2t/s 左右了。  

    4. 稳定性还是有一定的问题。 它可能没有测试过太多的非 EPYC 9004/9005 机器。因此在俺的各种机器上跑,有时会出现内存溢出。结果APP被卡死,得Force Quit。

    5. 说到 mmap,这的确可以用较小的内存跑更大的模型。但这个是有限制的。例如不能指望用128GB来跑 1.22TB 的模型。 一般模型最多比内存多一倍了不起了。 即使如此,用512GB来跑 1.22TB 也是不现实的。 即使能跑起来,速度也拉胯到无法忍受的程度。

    不过用 Fastllm 倒是有个惊喜。 俺的一个机器是 Intel Ultra 9 285K + 256GB DDR5 5600+ RTX 5060 Ti 16GB 的。 居然能跑他家的DeepSeek-R1-0528-INT4 版本 (331 GB), 速度能有 2t/s。 如果用Ollama 或 LM Studio 就只有0.3 t/s 了。 还真的提高了近十倍。 也不知道他们是怎么优化的。  

    Fastllm 好像是清华的人搞的,还是不错的。 希望将来稳定性更好一点。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-6-5 00:39
  • 签到天数: 901 天

    [LV.10]大乘

    47#
    发表于 6 天前 | 只看该作者
    孟词宗 发表于 2025-7-7 22:38
    试验了这个fastllm。  比较好的一点是安装说明写的不错,比 KTransformer要好多了。 一键安装也做的很不 ...

    赞钻研精神!

    俺的一个机器是 Intel Ultra 9 285K + 256GB DDR5 5600+ RTX 5060 Ti 16GB 的。 居然能跑他家的DeepSeek-R1-0528-INT4 版本 (331 GB), 速度能有 2t/s。 如果用Ollama 或 LM Studio 就只有0.3 t/s 了。 还真的提高了近十倍。


    话说这个确实有点厉害啊,接近可用了都
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    48#
     楼主| 发表于 6 天前 | 只看该作者
    话说这个确实有点厉害啊,接近可用了都


    这个必须是他家的 DeepSeek-R1-0528-INT4 版本才行。其他的 INT4 版本就不行。 估计他们自己搞了点优化。

    另外,Context 只有 4K。 SSD 是 PCIe 5.0x4 有 14.8 GB/S。 带宽不少了,已经接近 DDR4 2133 的带宽了。 如果准备用较少的 RAM 跑较大的模型,也许可以考虑用 PCIe 5.0x4 SSD RAID。 放 4 个SSD的话,理论上可以达到 60 GB/s 左右,超过 DDR5 4800 的 38.4 GB/s。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    49#
     楼主| 发表于 3 天前 | 只看该作者

    发现 fastllm 的一个问题。除了有时候会莫名其妙地内存溢出外,似乎还存在一个内部的 Context 上限。 不管跑什么版本的 671B 也不管 Context 设置到多大,一旦累积的 Context 达到 40K 就卡住了。要重启 fastllm 才行。 这点不如 LM Studio,Vllm, Ollama 之类的了。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-6-5 00:39
  • 签到天数: 901 天

    [LV.10]大乘

    50#
    发表于 3 天前 | 只看该作者
    孟词宗 发表于 2025-7-11 12:32
    发现 fastllm 的一个问题。除了有时候会莫名其妙地内存溢出外,似乎还存在一个内部的 Context 上限。 不 ...

    这个可以去GitHub报告一下,作者修bug挺努力的
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-15 21:30 , Processed in 0.041472 second(s), 17 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表