PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-GGUF開源模型 - 支持多樣量化，助力文本生成

首頁

Pocketdoc Dans PersonalityEngine V1.2.0 24b GGUF

由bartowski開發

基於PocketDoc/Dans-PersonalityEngine-V1.2.0-24b的Llamacpp imatrix量化版本，支持多種量化選項，適用於文本生成任務。

大型語言模型支持多種語言開源協議:Apache-2.0 #多領域知識整合 #高精度量化推理 #軍事生存應用

下載量 16.73k

發布時間 : 2/20/2025

模型概述

這是一個多功能文本生成模型，支持角色扮演、故事創作、科學領域（化學、生物學、氣候等）以及編程任務。模型經過量化處理，可在不同硬件配置下高效運行。

模型特點

多領域支持

模型在通用對話、角色扮演、科學領域和編程等多個領域表現優異

高效量化

提供多種量化選項，從Q8_0到IQ4_XS，適應不同硬件需求

廣泛數據集訓練

基於數十個專業數據集訓練，涵蓋數學、編程、生存技能等多個領域

兼容性強

可在LM Studio或任何基於llama.cpp的項目中運行

模型能力

文本生成

角色扮演

故事創作

化學問題解答

生物學問題解答

編程輔助

氣候相關分析

多輪對話

指令跟隨

使用案例

創意寫作

故事生成

根據用戶提示生成連貫的故事情節

可生成具有邏輯性和創意的故事內容

角色扮演

模擬特定角色的對話風格和性格特徵

能保持角色一致性並進行自然對話

教育輔助

科學問題解答

回答化學、生物學等科學領域的問題

提供準確的專業知識解答

數學問題求解

解決數學問題並提供分步解釋

能處理從基礎到高級的數學問題

技術輔助

編程幫助

生成代碼、調試或解釋編程概念

支持多種編程語言的代碼生成和分析

命令行輔助

生成和解釋Shell命令

能提供正確的命令行解決方案

🚀 PocketDoc的Dans-PersonalityEngine-V1.2.0-24b的Llamacpp imatrix量化版本

本項目是對PocketDoc的Dans-PersonalityEngine-V1.2.0-24b模型進行的量化處理，旨在提升模型在不同設備上的運行效率和性能。通過使用特定的量化工具和數據集，生成了多種不同類型的量化文件，以滿足不同用戶的需求。

🚀 快速開始

運行方式

可以在 LM Studio 中運行這些量化模型。
也可以直接使用 llama.cpp 或其他基於 llama.cpp 的項目來運行。

下載文件

你可以從下面的表格中選擇需要的文件進行下載：

文件名	量化類型	文件大小	分割情況	描述
Dans-PersonalityEngine-V1.2.0-24b-Q8_0.gguf	Q8_0	25.05GB	false	極高質量，通常不需要，但為可用的最高量化級別。
Dans-PersonalityEngine-V1.2.0-24b-Q6_K_L.gguf	Q6_K_L	19.67GB	false	嵌入和輸出權重使用 Q8_0。非常高質量，接近完美，推薦。
Dans-PersonalityEngine-V1.2.0-24b-Q6_K.gguf	Q6_K	19.35GB	false	非常高質量，接近完美，推薦。
Dans-PersonalityEngine-V1.2.0-24b-Q5_K_L.gguf	Q5_K_L	17.18GB	false	嵌入和輸出權重使用 Q8_0。高質量，推薦。
Dans-PersonalityEngine-V1.2.0-24b-Q5_K_M.gguf	Q5_K_M	16.76GB	false	高質量，推薦。
Dans-PersonalityEngine-V1.2.0-24b-Q5_K_S.gguf	Q5_K_S	16.30GB	false	高質量，推薦。
Dans-PersonalityEngine-V1.2.0-24b-Q4_1.gguf	Q4_1	14.87GB	false	舊格式，性能與 Q4_K_S 相似，但在蘋果硅芯片上的每瓦令牌數有所提高。
Dans-PersonalityEngine-V1.2.0-24b-Q4_K_L.gguf	Q4_K_L	14.83GB	false	嵌入和輸出權重使用 Q8_0。質量良好，推薦。
Dans-PersonalityEngine-V1.2.0-24b-Q4_K_M.gguf	Q4_K_M	14.33GB	false	質量良好，適用於大多數用例的默認大小，推薦。
Dans-PersonalityEngine-V1.2.0-24b-Q4_K_S.gguf	Q4_K_S	13.55GB	false	質量稍低，但節省更多空間，推薦。
Dans-PersonalityEngine-V1.2.0-24b-Q4_0.gguf	Q4_0	13.49GB	false	舊格式，可為 ARM 和 AVX CPU 推理提供在線重新打包。
Dans-PersonalityEngine-V1.2.0-24b-IQ4_NL.gguf	IQ4_NL	13.47GB	false	與 IQ4_XS 相似，但稍大。可為 ARM CPU 推理提供在線重新打包。
Dans-PersonalityEngine-V1.2.0-24b-Q3_K_XL.gguf	Q3_K_XL	12.99GB	false	嵌入和輸出權重使用 Q8_0。質量較低但可用，適用於低內存情況。
Dans-PersonalityEngine-V1.2.0-24b-IQ4_XS.gguf	IQ4_XS	12.76GB	false	質量不錯，比 Q4_K_S 小，性能相似，推薦。
Dans-PersonalityEngine-V1.2.0-24b-Q3_K_L.gguf	Q3_K_L	12.40GB	false	質量較低但可用，適用於低內存情況。
Dans-PersonalityEngine-V1.2.0-24b-Q3_K_M.gguf	Q3_K_M	11.47GB	false	低質量。
Dans-PersonalityEngine-V1.2.0-24b-IQ3_M.gguf	IQ3_M	10.65GB	false	中低質量，新方法，性能與 Q3_K_M 相當。
Dans-PersonalityEngine-V1.2.0-24b-Q3_K_S.gguf	Q3_K_S	10.40GB	false	低質量，不推薦。
Dans-PersonalityEngine-V1.2.0-24b-IQ3_XS.gguf	IQ3_XS	9.91GB	false	質量較低，新方法，性能不錯，略優於 Q3_K_S。
Dans-PersonalityEngine-V1.2.0-24b-Q2_K_L.gguf	Q2_K_L	9.55GB	false	嵌入和輸出權重使用 Q8_0。質量非常低，但出人意料地可用。
Dans-PersonalityEngine-V1.2.0-24b-IQ3_XXS.gguf	IQ3_XXS	9.28GB	false	質量較低，新方法，性能不錯，與 Q3 量化相當。
Dans-PersonalityEngine-V1.2.0-24b-Q2_K.gguf	Q2_K	8.89GB	false	質量非常低，但出人意料地可用。
Dans-PersonalityEngine-V1.2.0-24b-IQ2_M.gguf	IQ2_M	8.11GB	false	相對低質量，使用最先進的技術，出人意料地可用。
Dans-PersonalityEngine-V1.2.0-24b-IQ2_S.gguf	IQ2_S	7.48GB	false	低質量，使用最先進的技術，可用。
Dans-PersonalityEngine-V1.2.0-24b-IQ2_XS.gguf	IQ2_XS	7.21GB	false	低質量，使用最先進的技術，可用。

✨ 主要特性

多量化類型：提供多種量化類型，如 QX_K_X 和 IQX_X 等，以滿足不同的性能和質量需求。
在線重新打包：部分量化文件支持在線重新打包，可在 ARM 和 AVX 機器上提高性能。
性能優化：不同的量化類型在不同的硬件和場景下提供了性能和質量的平衡。

📦 安裝指南

使用 huggingface-cli 下載

首先，確保你已經安裝了 huggingface-cli：

pip install -U "huggingface_hub[cli]"

然後，你可以指定要下載的特定文件：

huggingface-cli download bartowski/PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-GGUF --include "PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-Q4_K_M.gguf" --local-dir ./

如果模型大於 50GB，它將被分割成多個文件。要將它們全部下載到本地文件夾，請運行：

huggingface-cli download bartowski/PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-GGUF --include "PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-Q8_0/*" --local-dir ./

你可以指定一個新的本地目錄（如 PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-Q8_0），也可以將它們全部下載到當前目錄（./）。

💻 使用示例

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📚 詳細文檔

嵌入/輸出權重

部分量化文件（如 Q3_K_XL、Q4_K_L 等）採用標準量化方法，將嵌入和輸出權重量化為 Q8_0，而不是默認值。

ARM/AVX 信息

以前，你會下載 Q4_0_4_4/4_8/8_8 文件，這些文件的權重在內存中交錯排列，以便在 ARM 和 AVX 機器上通過一次加載更多數據來提高性能。

現在，有了所謂的權重“在線重新打包”功能，詳情見此 PR。如果你使用 Q4_0 並且你的硬件可以從重新打包權重中受益，它將在運行時自動進行。

從 llama.cpp 版本 b4282 開始，你將無法運行 Q4_0_X_X 文件，而需要使用 Q4_0。

此外，如果你想獲得稍好的質量，可以使用 IQ4_NL，這得益於此 PR，它也會為 ARM 重新打包權重，但目前僅適用於 4_4。加載時間可能會更長，但總體速度會提高。

選擇合適的文件

一篇帶有圖表展示各種性能的優秀文章由 Artefact2 提供，點擊查看。

首先，你需要確定你可以運行多大的模型。為此，你需要了解你有多少 RAM 和/或 VRAM。

如果你希望模型運行得儘可能快，你需要將整個模型放入 GPU 的 VRAM 中。選擇文件大小比你的 GPU 總 VRAM 小 1 - 2GB 的量化文件。

如果你追求絕對最高質量，將系統 RAM 和 GPU 的 VRAM 相加，然後選擇文件大小比該總和小 1 - 2GB 的量化文件。

接下來，你需要決定是否使用“I - 量化”或“K - 量化”。

如果你不想考慮太多，可以選擇 K - 量化文件，格式為 'QX_K_X'，如 Q5_K_M。

如果你想深入瞭解，可以查看這個非常有用的功能圖表：llama.cpp 功能矩陣。

一般來說，如果你目標是低於 Q4 的量化，並且你使用的是 cuBLAS（Nvidia）或 rocBLAS（AMD），你應該考慮 I - 量化文件，格式為 IQX_X，如 IQ3_M。這些是較新的文件，在相同大小下提供更好的性能。

這些 I - 量化文件也可以在 CPU 和蘋果 Metal 上使用，但比對應的 K - 量化文件慢，因此你需要在速度和性能之間做出權衡。

I - 量化文件與 Vulcan（也是 AMD）不兼容，所以如果你有 AMD 顯卡，請仔細檢查你使用的是 rocBLAS 版本還是 Vulcan 版本。在撰寫本文時，LM Studio 有一個支持 ROCm 的預覽版，其他推理引擎也有針對 ROCm 的特定版本。

🔧 技術細節

量化方法

使用 llama.cpp 版本 b4738 進行量化。所有量化文件都使用 imatrix 選項，並使用來自此處的數據集。

性能基準

在 AVX2 系統（EPYC7702）上的基準測試表明，Q4_0_8_8 在提示處理方面有顯著提升，在文本生成方面也有小幅提升。具體基準測試數據如下：

模型	大小	參數	後端	線程數	測試類型	每秒令牌數	與 Q4_0 相比
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%