签到天数: 901 天
[LV.10]大乘
孟词宗 发表于 2025-7-2 11:24 要求不同罢了。 DeepSeek R1 0528进步的确很大。 Q2 以上版本算是可用了。 问题是如果只是用来搞 Python ...
使用道具 举报
该用户从未签到
司马梦求 发表于 2025-7-3 01:52 你说的挺有道理,其实我只是觉得像 DeepSeek R1 671B FP16那种 0.x token/s 的速度,实在太卡了,交互体 ...
孟词宗 发表于 2025-7-3 09:27 Z8 的速度不快。 fp16 用4K context 的时候也就 2t/s 左右。 KTransformer 提速的效果也不好,最多到 3-5 ...
司马梦求 发表于 2025-7-3 01:52 关于单纯的32B模型是否够用,这个可能确实因人而异。不过从实用角度讲,和DeepSeek R1 0528这种比较全面 ...
孟词宗 发表于 2025-7-3 12:10 你说的 fastLLM 是哪个?叫这个名字的不少。 能给个链接吗? 如果你说的是Github上的这个:https://gith ...
司马梦求 发表于 2025-7-4 02:10 对,是这个github repo。这个是作者的B站上跑DeepSeek R1 FP8原版的视频 https://www.bilibili.com/video ...
孟词宗 发表于 2025-7-7 22:38 试验了这个fastllm。 比较好的一点是安装说明写的不错,比 KTransformer要好多了。 一键安装也做的很不 ...
俺的一个机器是 Intel Ultra 9 285K + 256GB DDR5 5600+ RTX 5060 Ti 16GB 的。 居然能跑他家的DeepSeek-R1-0528-INT4 版本 (331 GB), 速度能有 2t/s。 如果用Ollama 或 LM Studio 就只有0.3 t/s 了。 还真的提高了近十倍。
司马梦求 发表于 2025-7-9 03:54 赞钻研精神!
话说这个确实有点厉害啊,接近可用了都
孟词宗 发表于 2025-7-11 12:32 发现 fastllm 的一个问题。除了有时候会莫名其妙地内存溢出外,似乎还存在一个内部的 Context 上限。 不 ...
手机版|小黑屋|Archiver|网站错误报告|爱吱声
GMT+8, 2025-7-15 21:30 , Processed in 0.041472 second(s), 17 queries , Gzip On.
Powered by Discuz! X3.2
© 2001-2013 Comsenz Inc.