BeaverAI_MN-2407-DSK-QwQify-v0.1-12B-GGUF開源大模型

首頁

Beaverai MN 2407 DSK QwQify V0.1 12B GGUF

由bartowski開發

基於12B參數的大語言模型，支持文本生成任務，採用Apache-2.0許可證發佈。

大型語言模型開源協議:Apache-2.0 #多輪對話優化 #高精度量化 #低資源部署

下載量 1,547

發布時間 : 3/15/2025

模型概述

這是一個經過量化處理的大語言模型，適用於多種文本生成場景，支持聊天和問答等任務。

模型特點

多種量化選項

提供從BF16到IQ3_M等多種量化版本，適應不同硬件需求

高質量文本生成

基於12B參數的大模型，能夠生成高質量的文本內容

廣泛的數據集訓練

使用了多個高質量數據集進行訓練，包括PJMixers-Dev系列數據集

模型能力

文本生成

對話系統

問答系統

使用案例

聊天應用

智能對話

可用於構建智能聊天機器人

生成自然流暢的對話內容

內容創作

文本輔助創作

幫助作家進行內容創作

提供創意建議和文本擴展

🚀 MN-2407-DSK-QwQify-v0.1-12B-LoRA-WS模型量化項目

本項目是對BeaverAI的MN-2407-DSK-QwQify-v0.1-12B模型進行Llamacpp imatrix量化處理。通過特定的量化工具和版本，生成了多種量化類型的模型文件，方便不同硬件條件和使用場景下的部署與應用。

🚀 快速開始

量化工具與版本

使用 llama.cpp 發佈版本 b4896 進行量化。

原始模型

原始模型地址：https://huggingface.co/BeaverAI/MN-2407-DSK-QwQify-v0.1-12B

運行方式

可在 LM Studio 中運行量化後的模型。
也可直接使用 llama.cpp 或其他基於 llama.cpp 的項目運行。

✨ 主要特性

多種量化類型：提供了豐富的量化類型，如 bf16、Q8_0、Q6_K_L 等，滿足不同硬件和性能需求。
優化嵌入和輸出權重：部分量化類型（如 Q3_K_XL、Q4_K_L 等）將嵌入和輸出權重量化為 Q8_0，提升模型性能。
在線重打包功能：部分量化類型支持在線重打包，可根據硬件自動優化權重加載，提高性能。

📦 安裝指南

安裝 huggingface-cli

pip install -U "huggingface_hub[cli]"

下載指定文件

huggingface-cli download bartowski/BeaverAI_MN-2407-DSK-QwQify-v0.1-12B-GGUF --include "BeaverAI_MN-2407-DSK-QwQify-v0.1-12B-Q4_K_M.gguf" --local-dir ./

下載拆分文件

若模型大於 50GB，已拆分為多個文件，可使用以下命令下載到本地文件夾：

huggingface-cli download bartowski/BeaverAI_MN-2407-DSK-QwQify-v0.1-12B-GGUF --include "BeaverAI_MN-2407-DSK-QwQify-v0.1-12B-Q8_0/*" --local-dir ./

💻 使用示例

提示格式

<s><|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
<think>

📚 詳細文檔

模型信息

屬性	詳情
量化者	bartowski
任務類型	文本生成
標籤	axolotl、generated_from_trainer
許可證	apache-2.0
基礎模型	BeaverAI/MN-2407-DSK-QwQify-v0.1-12B
訓練數據集	PJMixers-Dev/allura-org_gryphe-sonnet-3.5-charcards-names-added-qwq-all-aphrodite-Shuffled、PJMixers-Dev/anthracite-org_c2_logs_32k_llama3_qwen2_v1.3-qwq-all-aphrodite-Shuffled 等多個數據集
模型名稱	MN-2407-DSK-QwQify-v0.1-12B-LoRA-WS

下載文件列表

文件名	量化類型	文件大小	拆分情況	描述
MN-2407-DSK-QwQify-v0.1-12B-bf16.gguf	bf16	24.50GB	false	完整的 BF16 權重。
MN-2407-DSK-QwQify-v0.1-12B-Q8_0.gguf	Q8_0	13.02GB	false	極高質量，通常不需要，但為最大可用量化。
MN-2407-DSK-QwQify-v0.1-12B-Q6_K_L.gguf	Q6_K_L	10.38GB	false	嵌入和輸出權重使用 Q8_0。非常高質量，接近完美，推薦。
……	……	……	……	……

ARM/AVX 信息

以前，會下載 Q4_0_4_4/4_8/8_8 類型的文件，其權重在內存中交錯排列，以提高 ARM 和 AVX 機器的性能。現在，有了“在線重打包”功能，詳情見此 PR。若使用 Q4_0 且硬件適合重打包權重，會自動進行。從 llama.cpp 構建版本 b4282 開始，無法運行 Q4_0_X_X 文件，需使用 Q4_0。此外，藉助此 PR，可使用 IQ4_NL 獲得更好質量，它也會為 ARM 重打包權重，但目前僅支持 4_4。加載時間可能會變慢，但整體速度會提升。

選擇合適的文件

可參考 Artefact2 提供的詳細分析。首先，需確定能運行的模型大小，這取決於系統的 RAM 和/或 VRAM 容量。若追求最快速度，應選擇文件大小比 GPU 的 VRAM 小 1 - 2GB 的量化類型。若追求最高質量，可將系統 RAM 和 GPU 的 VRAM 相加，選擇比該總和小 1 - 2GB 的量化類型。其次，需決定使用 'I-quant' 還是 'K-quant'。若不想過多考慮，可選擇 K-quants，格式為 'QX_K_X'，如 Q5_K_M。若想深入瞭解，可查看 llama.cpp 特性矩陣。一般來說，若目標量化低於 Q4，且使用 cuBLAS（Nvidia）或 rocBLAS（AMD），可考慮 I-quants，格式為 IQX_X，如 IQ3_M。I-quants 較新，相同大小下性能更好，但在 CPU 上運行比 K-quant 慢，需權衡速度和性能。此外，I-quants 與 Vulcan 不兼容，若使用 AMD 顯卡，需確認使用的是 rocBLAS 版本還是 Vulcan 版本。