BeaverAI_MN-2407-DSK-QwQify-v0.1-12B-GGUF开源大模型

首页

Beaverai MN 2407 DSK QwQify V0.1 12B GGUF

由 bartowski 开发

基于12B参数的大语言模型，支持文本生成任务，采用Apache-2.0许可证发布。

大型语言模型开源协议:Apache-2.0 #多轮对话优化 #高精度量化 #低资源部署

下载量 1,547

发布时间 : 3/15/2025

模型简介

这是一个经过量化处理的大语言模型，适用于多种文本生成场景，支持聊天和问答等任务。

模型特点

多种量化选项

提供从BF16到IQ3_M等多种量化版本，适应不同硬件需求

高质量文本生成

基于12B参数的大模型，能够生成高质量的文本内容

广泛的数据集训练

使用了多个高质量数据集进行训练，包括PJMixers-Dev系列数据集

模型能力

文本生成

对话系统

问答系统

使用案例

聊天应用

智能对话

可用于构建智能聊天机器人

生成自然流畅的对话内容

内容创作

文本辅助创作

帮助作家进行内容创作

提供创意建议和文本扩展

🚀 MN-2407-DSK-QwQify-v0.1-12B-LoRA-WS模型量化项目

本项目是对BeaverAI的MN-2407-DSK-QwQify-v0.1-12B模型进行Llamacpp imatrix量化处理。通过特定的量化工具和版本，生成了多种量化类型的模型文件，方便不同硬件条件和使用场景下的部署与应用。

🚀 快速开始

量化工具与版本

使用 llama.cpp 发布版本 b4896 进行量化。

原始模型

原始模型地址：https://huggingface.co/BeaverAI/MN-2407-DSK-QwQify-v0.1-12B

运行方式

可在 LM Studio 中运行量化后的模型。
也可直接使用 llama.cpp 或其他基于 llama.cpp 的项目运行。

✨ 主要特性

多种量化类型：提供了丰富的量化类型，如 bf16、Q8_0、Q6_K_L 等，满足不同硬件和性能需求。
优化嵌入和输出权重：部分量化类型（如 Q3_K_XL、Q4_K_L 等）将嵌入和输出权重量化为 Q8_0，提升模型性能。
在线重打包功能：部分量化类型支持在线重打包，可根据硬件自动优化权重加载，提高性能。

📦 安装指南

安装 huggingface-cli

pip install -U "huggingface_hub[cli]"

下载指定文件

huggingface-cli download bartowski/BeaverAI_MN-2407-DSK-QwQify-v0.1-12B-GGUF --include "BeaverAI_MN-2407-DSK-QwQify-v0.1-12B-Q4_K_M.gguf" --local-dir ./

下载拆分文件

若模型大于 50GB，已拆分为多个文件，可使用以下命令下载到本地文件夹：

huggingface-cli download bartowski/BeaverAI_MN-2407-DSK-QwQify-v0.1-12B-GGUF --include "BeaverAI_MN-2407-DSK-QwQify-v0.1-12B-Q8_0/*" --local-dir ./

💻 使用示例

提示格式

<s><|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
<think>

📚 详细文档

模型信息

属性	详情
量化者	bartowski
任务类型	文本生成
标签	axolotl、generated_from_trainer
许可证	apache-2.0
基础模型	BeaverAI/MN-2407-DSK-QwQify-v0.1-12B
训练数据集	PJMixers-Dev/allura-org_gryphe-sonnet-3.5-charcards-names-added-qwq-all-aphrodite-Shuffled、PJMixers-Dev/anthracite-org_c2_logs_32k_llama3_qwen2_v1.3-qwq-all-aphrodite-Shuffled 等多个数据集
模型名称	MN-2407-DSK-QwQify-v0.1-12B-LoRA-WS

下载文件列表

文件名	量化类型	文件大小	拆分情况	描述
MN-2407-DSK-QwQify-v0.1-12B-bf16.gguf	bf16	24.50GB	false	完整的 BF16 权重。
MN-2407-DSK-QwQify-v0.1-12B-Q8_0.gguf	Q8_0	13.02GB	false	极高质量，通常不需要，但为最大可用量化。
MN-2407-DSK-QwQify-v0.1-12B-Q6_K_L.gguf	Q6_K_L	10.38GB	false	嵌入和输出权重使用 Q8_0。非常高质量，接近完美，推荐。
……	……	……	……	……

ARM/AVX 信息

以前，会下载 Q4_0_4_4/4_8/8_8 类型的文件，其权重在内存中交错排列，以提高 ARM 和 AVX 机器的性能。现在，有了“在线重打包”功能，详情见此 PR。若使用 Q4_0 且硬件适合重打包权重，会自动进行。从 llama.cpp 构建版本 b4282 开始，无法运行 Q4_0_X_X 文件，需使用 Q4_0。此外，借助此 PR，可使用 IQ4_NL 获得更好质量，它也会为 ARM 重打包权重，但目前仅支持 4_4。加载时间可能会变慢，但整体速度会提升。

选择合适的文件

可参考 Artefact2 提供的详细分析。首先，需确定能运行的模型大小，这取决于系统的 RAM 和/或 VRAM 容量。若追求最快速度，应选择文件大小比 GPU 的 VRAM 小 1 - 2GB 的量化类型。若追求最高质量，可将系统 RAM 和 GPU 的 VRAM 相加，选择比该总和小 1 - 2GB 的量化类型。其次，需决定使用 'I-quant' 还是 'K-quant'。若不想过多考虑，可选择 K-quants，格式为 'QX_K_X'，如 Q5_K_M。若想深入了解，可查看 llama.cpp 特性矩阵。一般来说，若目标量化低于 Q4，且使用 cuBLAS（Nvidia）或 rocBLAS（AMD），可考虑 I-quants，格式为 IQX_X，如 IQ3_M。I-quants 较新，相同大小下性能更好，但在 CPU 上运行比 K-quant 慢，需权衡速度和性能。此外，I-quants 与 Vulcan 不兼容，若使用 AMD 显卡，需确认使用的是 rocBLAS 版本还是 Vulcan 版本。