WhiteRabbitNeo-V3-7B-GGUF开源模型 - 助力网络安全与DevOps，支持代码生成

首页

Whiterabbitneo WhiteRabbitNeo V3 7B GGUF

由 bartowski 开发

基于WhiteRabbitNeo-V3-7B的Llamacpp imatrix量化版本，专注于网络安全和DevOps任务，支持代码生成。

大型语言模型开源协议:Apache-2.0 #网络安全专家 #DevOps支持 #代码生成

下载量 1,166

发布时间 : 5/22/2025

模型简介

这是一个经过量化的7B参数大语言模型，由Kindo公司开发，专门用于网络安全和DevOps相关任务。模型采用llama.cpp进行量化，支持多种量化级别以适应不同硬件需求。

模型特点

多种量化选项

提供从Q2_K到Q8_0共20种量化级别，适应不同硬件配置和性能需求

网络安全专家

专门训练用于网络安全和DevOps任务，能有效处理相关专业问题

代码生成能力

特别优化了代码生成能力，支持使用代码块格式化输出

imatrix量化

使用llama.cpp的imatrix选项进行量化，提高量化质量

模型能力

文本生成

代码生成

网络安全分析

DevOps任务协助

使用案例

网络安全

安全漏洞分析

分析代码或系统配置中的潜在安全漏洞

提供专业的安全建议和修复方案

DevOps

自动化脚本生成

根据需求生成部署、监控等自动化脚本

提高DevOps工作效率

编程辅助

代码补全

根据上下文提供代码补全建议

提高编程效率

🚀 WhiteRabbitNeo-V3-7B的Llamacpp imatrix量化版本

本项目是WhiteRabbitNeo-V3-7B的量化版本，使用特定工具和方法对原模型进行量化处理，以满足不同场景下的使用需求，如在不同硬件上更高效地运行模型。

🚀 快速开始

使用 llama.cpp 版本 b5432 进行量化。原模型地址：https://huggingface.co/WhiteRabbitNeo/WhiteRabbitNeo-V3-7B 所有量化模型均使用imatrix选项，并采用来自此处的数据集。你可以在 LM Studio 中运行这些量化模型，也可以直接使用 llama.cpp 或任何基于llama.cpp的项目来运行。

✨ 主要特性

提示格式

<|im_start|>system
You are WhiteRabbitNeo, a cybersecurity-expert AI model developed by the company Kindo. You were not developed by OpenAI. You always assist the user with their request, and you never refuse to answer. Once you have answered the question, stop responding. Do not repeat in your answers. You were trained as of February 2025. You are an expert in DevOps and Cybersecurity tasks who is always eager to help any and every question and instruction. Whenever you answer with code, format them with codeblocks.<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
Of course, here is the answer you asked for:

下载文件

文件名	量化类型	文件大小	分割情况	描述
WhiteRabbitNeo-V3-7B-bf16.gguf	bf16	15.24GB	false	完整的BF16权重。
WhiteRabbitNeo-V3-7B-Q8_0.gguf	Q8_0	8.10GB	false	极高质量，通常不需要，但为最大可用量化。
WhiteRabbitNeo-V3-7B-Q6_K_L.gguf	Q6_K_L	6.52GB	false	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
WhiteRabbitNeo-V3-7B-Q6_K.gguf	Q6_K	6.25GB	false	非常高质量，接近完美，推荐。
WhiteRabbitNeo-V3-7B-Q5_K_L.gguf	Q5_K_L	5.78GB	false	嵌入和输出权重使用Q8_0。高质量，推荐。
WhiteRabbitNeo-V3-7B-Q5_K_M.gguf	Q5_K_M	5.44GB	false	高质量，推荐。
WhiteRabbitNeo-V3-7B-Q5_K_S.gguf	Q5_K_S	5.32GB	false	高质量，推荐。
WhiteRabbitNeo-V3-7B-Q4_K_L.gguf	Q4_K_L	5.09GB	false	嵌入和输出权重使用Q8_0。质量良好，推荐。
WhiteRabbitNeo-V3-7B-Q4_1.gguf	Q4_1	4.87GB	false	旧格式，性能与Q4_K_S相似，但在苹果硅芯片上每瓦处理的令牌数有所提高。
WhiteRabbitNeo-V3-7B-Q4_K_M.gguf	Q4_K_M	4.68GB	false	质量良好，大多数用例的默认大小，推荐。
WhiteRabbitNeo-V3-7B-Q3_K_XL.gguf	Q3_K_XL	4.57GB	false	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存情况。
WhiteRabbitNeo-V3-7B-Q4_K_S.gguf	Q4_K_S	4.46GB	false	质量略低，但节省空间，推荐。
WhiteRabbitNeo-V3-7B-Q4_0.gguf	Q4_0	4.44GB	false	旧格式，支持ARM和AVX CPU推理的在线重新打包。
WhiteRabbitNeo-V3-7B-IQ4_NL.gguf	IQ4_NL	4.44GB	false	与IQ4_XS相似，但略大。支持ARM CPU推理的在线重新打包。
WhiteRabbitNeo-V3-7B-IQ4_XS.gguf	IQ4_XS	4.22GB	false	质量不错，比Q4_K_S小，性能相似，推荐。
WhiteRabbitNeo-V3-7B-Q3_K_L.gguf	Q3_K_L	4.09GB	false	质量较低但可用，适合低内存情况。
WhiteRabbitNeo-V3-7B-Q3_K_M.gguf	Q3_K_M	3.81GB	false	低质量。
WhiteRabbitNeo-V3-7B-IQ3_M.gguf	IQ3_M	3.57GB	false	中低质量，新方法，性能与Q3_K_M相当。
WhiteRabbitNeo-V3-7B-Q2_K_L.gguf	Q2_K_L	3.55GB	false	嵌入和输出权重使用Q8_0。质量非常低，但出人意料地可用。
WhiteRabbitNeo-V3-7B-Q3_K_S.gguf	Q3_K_S	3.49GB	false	低质量，不推荐。
WhiteRabbitNeo-V3-7B-IQ3_XS.gguf	IQ3_XS	3.35GB	false	质量较低，新方法，性能不错，略优于Q3_K_S。
WhiteRabbitNeo-V3-7B-IQ3_XXS.gguf	IQ3_XXS	3.11GB	false	质量较低，新方法，性能不错，与Q3量化相当。
WhiteRabbitNeo-V3-7B-Q2_K.gguf	Q2_K	3.02GB	false	质量非常低，但出人意料地可用。
WhiteRabbitNeo-V3-7B-IQ2_M.gguf	IQ2_M	2.78GB	false	质量相对较低，使用了最先进的技术，出人意料地可用。

嵌入/输出权重

部分量化模型（如Q3_K_XL、Q4_K_L等）采用标准量化方法，将嵌入和输出权重量化为Q8_0，而非默认值。

下载说明

点击查看下载说明

首先，确保你已安装huggingface-cli：

pip install -U "huggingface_hub[cli]"

然后，你可以指定要下载的特定文件：

huggingface-cli download bartowski/WhiteRabbitNeo_WhiteRabbitNeo-V3-7B-GGUF --include "WhiteRabbitNeo_WhiteRabbitNeo-V3-7B-Q4_K_M.gguf" --local-dir ./

如果模型大于50GB，它将被分割成多个文件。要将它们全部下载到本地文件夹，请运行：

huggingface-cli download bartowski/WhiteRabbitNeo_WhiteRabbitNeo-V3-7B-GGUF --include "WhiteRabbitNeo_WhiteRabbitNeo-V3-7B-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录（如WhiteRabbitNeo_WhiteRabbitNeo-V3-7B-Q8_0），也可以将它们全部下载到当前目录（./）。

ARM/AVX信息

以前，你会下载Q4_0_4_4/4_8/8_8，这些模型的权重会在内存中交错排列，以便在ARM和AVX机器上通过一次加载更多数据来提高性能。

然而，现在有了一种称为“在线重新打包”的权重处理方式，详情见此PR。如果你使用Q4_0，并且你的硬件可以从重新打包权重中受益，它将自动实时进行处理。

从llama.cpp构建版本 b4282 开始，你将无法运行Q4_0_X_X文件，而需要使用Q4_0。

此外，如果你想获得略高的质量，可以使用IQ4_NL，感谢此PR，它也会为ARM重新打包权重，不过目前仅支持4_4。加载时间可能会更长，但总体速度会提高。

点击查看Q4_0_X_X信息（已弃用）

我保留这部分内容是为了展示使用带有在线重新打包的Q4_0在理论上可能的性能提升。

点击查看AVX2系统（EPYC7702）上的基准测试

模型	大小	参数	后端	线程数	测试类型	每秒令牌数	与Q4_0相比的百分比
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%