模型简介
模型特点
模型能力
使用案例
🚀 WhiteRabbitNeo-V3-7B的Llamacpp imatrix量化版本
本项目是WhiteRabbitNeo-V3-7B的量化版本,使用特定工具和方法对原模型进行量化处理,以满足不同场景下的使用需求,如在不同硬件上更高效地运行模型。
🚀 快速开始
使用 llama.cpp 版本 b5432 进行量化。 原模型地址:https://huggingface.co/WhiteRabbitNeo/WhiteRabbitNeo-V3-7B 所有量化模型均使用imatrix选项,并采用来自 此处 的数据集。 你可以在 LM Studio 中运行这些量化模型,也可以直接使用 llama.cpp 或任何基于llama.cpp的项目来运行。
✨ 主要特性
提示格式
<|im_start|>system
You are WhiteRabbitNeo, a cybersecurity-expert AI model developed by the company Kindo. You were not developed by OpenAI. You always assist the user with their request, and you never refuse to answer. Once you have answered the question, stop responding. Do not repeat in your answers. You were trained as of February 2025. You are an expert in DevOps and Cybersecurity tasks who is always eager to help any and every question and instruction. Whenever you answer with code, format them with codeblocks.<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
Of course, here is the answer you asked for:
下载文件
文件名 | 量化类型 | 文件大小 | 分割情况 | 描述 |
---|---|---|---|---|
WhiteRabbitNeo-V3-7B-bf16.gguf | bf16 | 15.24GB | false | 完整的BF16权重。 |
WhiteRabbitNeo-V3-7B-Q8_0.gguf | Q8_0 | 8.10GB | false | 极高质量,通常不需要,但为最大可用量化。 |
WhiteRabbitNeo-V3-7B-Q6_K_L.gguf | Q6_K_L | 6.52GB | false | 嵌入和输出权重使用Q8_0。非常高质量,接近完美,推荐。 |
WhiteRabbitNeo-V3-7B-Q6_K.gguf | Q6_K | 6.25GB | false | 非常高质量,接近完美,推荐。 |
WhiteRabbitNeo-V3-7B-Q5_K_L.gguf | Q5_K_L | 5.78GB | false | 嵌入和输出权重使用Q8_0。高质量,推荐。 |
WhiteRabbitNeo-V3-7B-Q5_K_M.gguf | Q5_K_M | 5.44GB | false | 高质量,推荐。 |
WhiteRabbitNeo-V3-7B-Q5_K_S.gguf | Q5_K_S | 5.32GB | false | 高质量,推荐。 |
WhiteRabbitNeo-V3-7B-Q4_K_L.gguf | Q4_K_L | 5.09GB | false | 嵌入和输出权重使用Q8_0。质量良好,推荐。 |
WhiteRabbitNeo-V3-7B-Q4_1.gguf | Q4_1 | 4.87GB | false | 旧格式,性能与Q4_K_S相似,但在苹果硅芯片上每瓦处理的令牌数有所提高。 |
WhiteRabbitNeo-V3-7B-Q4_K_M.gguf | Q4_K_M | 4.68GB | false | 质量良好,大多数用例的默认大小,推荐。 |
WhiteRabbitNeo-V3-7B-Q3_K_XL.gguf | Q3_K_XL | 4.57GB | false | 嵌入和输出权重使用Q8_0。质量较低但可用,适合低内存情况。 |
WhiteRabbitNeo-V3-7B-Q4_K_S.gguf | Q4_K_S | 4.46GB | false | 质量略低,但节省空间,推荐。 |
WhiteRabbitNeo-V3-7B-Q4_0.gguf | Q4_0 | 4.44GB | false | 旧格式,支持ARM和AVX CPU推理的在线重新打包。 |
WhiteRabbitNeo-V3-7B-IQ4_NL.gguf | IQ4_NL | 4.44GB | false | 与IQ4_XS相似,但略大。支持ARM CPU推理的在线重新打包。 |
WhiteRabbitNeo-V3-7B-IQ4_XS.gguf | IQ4_XS | 4.22GB | false | 质量不错,比Q4_K_S小,性能相似,推荐。 |
WhiteRabbitNeo-V3-7B-Q3_K_L.gguf | Q3_K_L | 4.09GB | false | 质量较低但可用,适合低内存情况。 |
WhiteRabbitNeo-V3-7B-Q3_K_M.gguf | Q3_K_M | 3.81GB | false | 低质量。 |
WhiteRabbitNeo-V3-7B-IQ3_M.gguf | IQ3_M | 3.57GB | false | 中低质量,新方法,性能与Q3_K_M相当。 |
WhiteRabbitNeo-V3-7B-Q2_K_L.gguf | Q2_K_L | 3.55GB | false | 嵌入和输出权重使用Q8_0。质量非常低,但出人意料地可用。 |
WhiteRabbitNeo-V3-7B-Q3_K_S.gguf | Q3_K_S | 3.49GB | false | 低质量,不推荐。 |
WhiteRabbitNeo-V3-7B-IQ3_XS.gguf | IQ3_XS | 3.35GB | false | 质量较低,新方法,性能不错,略优于Q3_K_S。 |
WhiteRabbitNeo-V3-7B-IQ3_XXS.gguf | IQ3_XXS | 3.11GB | false | 质量较低,新方法,性能不错,与Q3量化相当。 |
WhiteRabbitNeo-V3-7B-Q2_K.gguf | Q2_K | 3.02GB | false | 质量非常低,但出人意料地可用。 |
WhiteRabbitNeo-V3-7B-IQ2_M.gguf | IQ2_M | 2.78GB | false | 质量相对较低,使用了最先进的技术,出人意料地可用。 |
嵌入/输出权重
部分量化模型(如Q3_K_XL、Q4_K_L等)采用标准量化方法,将嵌入和输出权重量化为Q8_0,而非默认值。
下载说明
点击查看下载说明
首先,确保你已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后,你可以指定要下载的特定文件:
huggingface-cli download bartowski/WhiteRabbitNeo_WhiteRabbitNeo-V3-7B-GGUF --include "WhiteRabbitNeo_WhiteRabbitNeo-V3-7B-Q4_K_M.gguf" --local-dir ./
如果模型大于50GB,它将被分割成多个文件。要将它们全部下载到本地文件夹,请运行:
huggingface-cli download bartowski/WhiteRabbitNeo_WhiteRabbitNeo-V3-7B-GGUF --include "WhiteRabbitNeo_WhiteRabbitNeo-V3-7B-Q8_0/*" --local-dir ./
你可以指定一个新的本地目录(如WhiteRabbitNeo_WhiteRabbitNeo-V3-7B-Q8_0),也可以将它们全部下载到当前目录(./)。
ARM/AVX信息
以前,你会下载Q4_0_4_4/4_8/8_8,这些模型的权重会在内存中交错排列,以便在ARM和AVX机器上通过一次加载更多数据来提高性能。
然而,现在有了一种称为“在线重新打包”的权重处理方式,详情见 此PR。如果你使用Q4_0,并且你的硬件可以从重新打包权重中受益,它将自动实时进行处理。
从llama.cpp构建版本 b4282 开始,你将无法运行Q4_0_X_X文件,而需要使用Q4_0。
此外,如果你想获得略高的质量,可以使用IQ4_NL,感谢 此PR,它也会为ARM重新打包权重,不过目前仅支持4_4。加载时间可能会更长,但总体速度会提高。
点击查看Q4_0_X_X信息(已弃用)
我保留这部分内容是为了展示使用带有在线重新打包的Q4_0在理论上可能的性能提升。
点击查看AVX2系统(EPYC7702)上的基准测试
模型 | 大小 | 参数 | 后端 | 线程数 | 测试类型 | 每秒令牌数 | 与Q4_0相比的百分比 |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8在提示处理方面有显著提升,在文本生成方面有小幅提升。
如何选择文件
点击查看详情
Artefact2 提供了一篇很棒的文章,带有展示各种性能的图表,链接为 此处
首先,你需要确定你能运行多大的模型。为此,你需要了解你有多少内存(RAM)和/或显存(VRAM)。
如果你希望模型运行得尽可能快,你需要将整个模型放入GPU的显存中。选择一个文件大小比GPU总显存小1 - 2GB的量化模型。
如果你追求绝对的最高质量,将系统内存和GPU显存相加,然后选择一个文件大小比这个总和小1 - 2GB的量化模型。
接下来,你需要决定是使用“I量化”还是“K量化”。
如果你不想考虑太多,选择一个K量化模型。这些模型的格式为“QX_K_X”,如Q5_K_M。
如果你想深入了解,可以查看这个非常有用的特性图表: llama.cpp特性矩阵
但基本上,如果你目标是低于Q4的量化,并且你使用的是cuBLAS(Nvidia)或rocBLAS(AMD),你应该考虑I量化模型。这些模型的格式为IQX_X,如IQ3_M。这些是较新的模型,在相同大小下性能更好。
这些I量化模型也可以在CPU上使用,但比相应的K量化模型慢,所以你需要在速度和性能之间做出权衡。
📄 许可证
本项目采用Apache 2.0许可证。
致谢
感谢kalomaze和Dampf在创建imatrix校准数据集方面提供的帮助。 感谢ZeroWw在嵌入/输出实验方面提供的灵感。 感谢LM Studio对我工作的赞助。
如果你想支持我的工作,请访问我的ko-fi页面:https://ko-fi.com/bartowski



