Nera_Noctis-12B-GGUF开源模型 - 免费助力英文文本生成任务！

首页

Nera Noctis 12B GGUF

由 bartowski 开发

Nera_Noctis-12B的Llamacpp imatrix量化版本，基于Nitral-AI/Nera_Noctis-12B模型，支持英文文本生成任务。

大型语言模型英语开源协议:其他 #高精度文本生成 #多量化版本适配 #低内存优化

下载量 64

发布时间 : 1/1/2025

模型简介

这是一个基于Nitral-AI/Nera_Noctis-12B模型的量化版本，使用llama.cpp进行量化，适用于文本生成任务。

模型特点

多种量化选项

提供从f16到IQ2_XS的多种量化版本，满足不同硬件和性能需求。

高质量量化

使用imatrix选项进行量化，确保模型性能接近原始版本。

支持LM Studio

可在LM Studio中运行，便于本地部署和使用。

模型能力

文本生成

英文文本处理

使用案例

文本生成

对话系统

可用于构建英文对话系统，生成自然流畅的回复。

内容创作

生成英文文章、故事或其他创意内容。

🚀 Nera_Noctis-12B的Llamacpp imatrix量化版本

本项目使用 llama.cpp 的 b4404 版本进行量化。原始模型可在此处查看。所有量化版本均使用 imatrix 选项，并采用此数据集进行处理。你可以在 LM Studio 中运行这些量化模型。

🚀 快速开始

提示词格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

下载文件

你可以从下方表格中选择并下载单个文件（而非整个分支）：

文件名	量化类型	文件大小	拆分情况	描述
Nera_Noctis-12B-f16.gguf	f16	24.50GB	否	完整的F16权重。
Nera_Noctis-12B-Q8_0.gguf	Q8_0	13.02GB	否	极高质量，通常无需使用，但为最大可用量化级别。
Nera_Noctis-12B-Q6_K_L.gguf	Q6_K_L	10.38GB	否	嵌入和输出权重采用Q8_0量化。非常高的质量，近乎完美，推荐使用。
Nera_Noctis-12B-Q6_K.gguf	Q6_K	10.06GB	否	非常高的质量，近乎完美，推荐使用。
Nera_Noctis-12B-Q5_K_L.gguf	Q5_K_L	9.14GB	否	嵌入和输出权重采用Q8_0量化。高质量，推荐使用。
Nera_Noctis-12B-Q5_K_M.gguf	Q5_K_M	8.73GB	否	高质量，推荐使用。
Nera_Noctis-12B-Q5_K_S.gguf	Q5_K_S	8.52GB	否	高质量，推荐使用。
Nera_Noctis-12B-Q4_K_L.gguf	Q4_K_L	7.98GB	否	嵌入和输出权重采用Q8_0量化。质量良好，推荐使用。
Nera_Noctis-12B-Q4_1.gguf	Q4_1	7.80GB	否	旧格式，性能与Q4_K_S相似，但在苹果硅芯片上的每瓦令牌数有所提升。
Nera_Noctis-12B-Q4_K_M.gguf	Q4_K_M	7.48GB	否	质量良好，是大多数使用场景的默认大小，推荐使用。
Nera_Noctis-12B-Q3_K_XL.gguf	Q3_K_XL	7.15GB	否	嵌入和输出权重采用Q8_0量化。质量较低但仍可使用，适合低内存场景。
Nera_Noctis-12B-Q4_K_S.gguf	Q4_K_S	7.12GB	否	质量略低，但节省空间，推荐使用。
Nera_Noctis-12B-IQ4_NL.gguf	IQ4_NL	7.10GB	否	与IQ4_XS相似，但稍大。支持ARM CPU推理的在线重新打包。
Nera_Noctis-12B-Q4_0.gguf	Q4_0	7.09GB	否	旧格式，支持ARM和AVX CPU推理的在线重新打包。
Nera_Noctis-12B-IQ4_XS.gguf	IQ4_XS	6.74GB	否	质量尚可，比Q4_K_S小，性能相似，推荐使用。
Nera_Noctis-12B-Q3_K_L.gguf	Q3_K_L	6.56GB	否	质量较低但仍可使用，适合低内存场景。
Nera_Noctis-12B-Q3_K_M.gguf	Q3_K_M	6.08GB	否	低质量。
Nera_Noctis-12B-IQ3_M.gguf	IQ3_M	5.72GB	否	中低质量，新方法，性能与Q3_K_M相当。
Nera_Noctis-12B-Q3_K_S.gguf	Q3_K_S	5.53GB	否	低质量，不推荐使用。
Nera_Noctis-12B-Q2_K_L.gguf	Q2_K_L	5.45GB	否	嵌入和输出权重采用Q8_0量化。质量非常低，但意外地可用。
Nera_Noctis-12B-IQ3_XS.gguf	IQ3_XS	5.31GB	否	质量较低，新方法，性能尚可，略优于Q3_K_S。
Nera_Noctis-12B-Q2_K.gguf	Q2_K	4.79GB	否	质量非常低，但意外地可用。
Nera_Noctis-12B-IQ2_M.gguf	IQ2_M	4.44GB	否	相对较低的质量，采用了最先进的技术，意外地可用。
Nera_Noctis-12B-IQ2_S.gguf	IQ2_S	4.14GB	否	低质量，采用了最先进的技术，可用。
Nera_Noctis-12B-IQ2_XS.gguf	IQ2_XS	3.92GB	否	低质量，采用了最先进的技术，可用。

✨ 主要特性

嵌入/输出权重

部分量化版本（如Q3_K_XL、Q4_K_L等）采用标准量化方法，将嵌入和输出权重量化为Q8_0，而非默认值。

ARM/AVX信息

以前，你需要下载Q4_0_4_4/4_8/8_8版本，这些版本的权重在内存中交错排列，以便在ARM和AVX机器上通过一次加载更多数据来提高性能。

然而，现在有了一种名为“在线重新打包”的权重处理方式，详情见此PR。如果你使用Q4_0，并且你的硬件可以从重新打包权重中受益，它将自动实时进行处理。

从llama.cpp的 b4282 版本开始，你将无法运行Q4_0_X_X文件，而需要使用Q4_0。

此外，如果你想获得稍好的质量，可以使用IQ4_NL，这得益于此PR，它也会为ARM重新打包权重，但目前仅支持4_4版本。加载时间可能会较慢，但总体速度会提高。

点击查看Q4_0_X_X信息（已弃用）

我保留这部分内容是为了展示使用支持在线重新打包的Q4_0时潜在的理论性能提升。

点击查看AVX2系统（EPYC7702）上的基准测试

| 模型 | 大小 | 参数 | 后端 | 线程数 | 测试用例 | 令牌/秒 | 与Q4_0相比的百分比 | | ------------------------------ | ---------: | ---------: | ---------- | ------: | ------------: | -------------------: |-------------: | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |

Q4_0_8_8在提示处理方面有显著提升，在文本生成方面也有小幅提升。

📦 安装指南

使用huggingface-cli下载

点击查看下载说明

首先，确保你已安装huggingface-cli： ``` pip install -U "huggingface_hub[cli]" ``` 然后，你可以指定要下载的特定文件： ``` huggingface-cli download bartowski/Nera_Noctis-12B-GGUF --include "Nera_Noctis-12B-Q4_K_M.gguf" --local-dir ./ ``` 如果模型大小超过50GB，它将被拆分为多个文件。要将它们全部下载到本地文件夹，请运行： ``` huggingface-cli download bartowski/Nera_Noctis-12B-GGUF --include "Nera_Noctis-12B-Q8_0/*" --local-dir ./ ``` 你可以指定一个新的本地目录（如Nera_Noctis-12B-Q8_0），也可以将它们全部下载到当前目录（./）。