PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-GGUF开源模型 - 支持多样量化，助力文本生成

首页

Pocketdoc Dans PersonalityEngine V1.2.0 24b GGUF

由 bartowski 开发

基于PocketDoc/Dans-PersonalityEngine-V1.2.0-24b的Llamacpp imatrix量化版本，支持多种量化选项，适用于文本生成任务。

大型语言模型支持多种语言开源协议:Apache-2.0 #多领域知识整合 #高精度量化推理 #军事生存应用

下载量 16.73k

发布时间 : 2/20/2025

模型简介

这是一个多功能文本生成模型，支持角色扮演、故事创作、科学领域（化学、生物学、气候等）以及编程任务。模型经过量化处理，可在不同硬件配置下高效运行。

模型特点

多领域支持

模型在通用对话、角色扮演、科学领域和编程等多个领域表现优异

高效量化

提供多种量化选项，从Q8_0到IQ4_XS，适应不同硬件需求

广泛数据集训练

基于数十个专业数据集训练，涵盖数学、编程、生存技能等多个领域

兼容性强

可在LM Studio或任何基于llama.cpp的项目中运行

模型能力

文本生成

角色扮演

故事创作

化学问题解答

生物学问题解答

编程辅助

气候相关分析

多轮对话

指令跟随

使用案例

创意写作

故事生成

根据用户提示生成连贯的故事情节

可生成具有逻辑性和创意的故事内容

角色扮演

模拟特定角色的对话风格和性格特征

能保持角色一致性并进行自然对话

教育辅助

科学问题解答

回答化学、生物学等科学领域的问题

提供准确的专业知识解答

数学问题求解

解决数学问题并提供分步解释

能处理从基础到高级的数学问题

技术辅助

编程帮助

生成代码、调试或解释编程概念

支持多种编程语言的代码生成和分析

命令行辅助

生成和解释Shell命令

能提供正确的命令行解决方案

🚀 PocketDoc的Dans-PersonalityEngine-V1.2.0-24b的Llamacpp imatrix量化版本

本项目是对PocketDoc的Dans-PersonalityEngine-V1.2.0-24b模型进行的量化处理，旨在提升模型在不同设备上的运行效率和性能。通过使用特定的量化工具和数据集，生成了多种不同类型的量化文件，以满足不同用户的需求。

🚀 快速开始

运行方式

可以在 LM Studio 中运行这些量化模型。
也可以直接使用 llama.cpp 或其他基于 llama.cpp 的项目来运行。

下载文件

你可以从下面的表格中选择需要的文件进行下载：

文件名	量化类型	文件大小	分割情况	描述
Dans-PersonalityEngine-V1.2.0-24b-Q8_0.gguf	Q8_0	25.05GB	false	极高质量，通常不需要，但为可用的最高量化级别。
Dans-PersonalityEngine-V1.2.0-24b-Q6_K_L.gguf	Q6_K_L	19.67GB	false	嵌入和输出权重使用 Q8_0。非常高质量，接近完美，推荐。
Dans-PersonalityEngine-V1.2.0-24b-Q6_K.gguf	Q6_K	19.35GB	false	非常高质量，接近完美，推荐。
Dans-PersonalityEngine-V1.2.0-24b-Q5_K_L.gguf	Q5_K_L	17.18GB	false	嵌入和输出权重使用 Q8_0。高质量，推荐。
Dans-PersonalityEngine-V1.2.0-24b-Q5_K_M.gguf	Q5_K_M	16.76GB	false	高质量，推荐。
Dans-PersonalityEngine-V1.2.0-24b-Q5_K_S.gguf	Q5_K_S	16.30GB	false	高质量，推荐。
Dans-PersonalityEngine-V1.2.0-24b-Q4_1.gguf	Q4_1	14.87GB	false	旧格式，性能与 Q4_K_S 相似，但在苹果硅芯片上的每瓦令牌数有所提高。
Dans-PersonalityEngine-V1.2.0-24b-Q4_K_L.gguf	Q4_K_L	14.83GB	false	嵌入和输出权重使用 Q8_0。质量良好，推荐。
Dans-PersonalityEngine-V1.2.0-24b-Q4_K_M.gguf	Q4_K_M	14.33GB	false	质量良好，适用于大多数用例的默认大小，推荐。
Dans-PersonalityEngine-V1.2.0-24b-Q4_K_S.gguf	Q4_K_S	13.55GB	false	质量稍低，但节省更多空间，推荐。
Dans-PersonalityEngine-V1.2.0-24b-Q4_0.gguf	Q4_0	13.49GB	false	旧格式，可为 ARM 和 AVX CPU 推理提供在线重新打包。
Dans-PersonalityEngine-V1.2.0-24b-IQ4_NL.gguf	IQ4_NL	13.47GB	false	与 IQ4_XS 相似，但稍大。可为 ARM CPU 推理提供在线重新打包。
Dans-PersonalityEngine-V1.2.0-24b-Q3_K_XL.gguf	Q3_K_XL	12.99GB	false	嵌入和输出权重使用 Q8_0。质量较低但可用，适用于低内存情况。
Dans-PersonalityEngine-V1.2.0-24b-IQ4_XS.gguf	IQ4_XS	12.76GB	false	质量不错，比 Q4_K_S 小，性能相似，推荐。
Dans-PersonalityEngine-V1.2.0-24b-Q3_K_L.gguf	Q3_K_L	12.40GB	false	质量较低但可用，适用于低内存情况。
Dans-PersonalityEngine-V1.2.0-24b-Q3_K_M.gguf	Q3_K_M	11.47GB	false	低质量。
Dans-PersonalityEngine-V1.2.0-24b-IQ3_M.gguf	IQ3_M	10.65GB	false	中低质量，新方法，性能与 Q3_K_M 相当。
Dans-PersonalityEngine-V1.2.0-24b-Q3_K_S.gguf	Q3_K_S	10.40GB	false	低质量，不推荐。
Dans-PersonalityEngine-V1.2.0-24b-IQ3_XS.gguf	IQ3_XS	9.91GB	false	质量较低，新方法，性能不错，略优于 Q3_K_S。
Dans-PersonalityEngine-V1.2.0-24b-Q2_K_L.gguf	Q2_K_L	9.55GB	false	嵌入和输出权重使用 Q8_0。质量非常低，但出人意料地可用。
Dans-PersonalityEngine-V1.2.0-24b-IQ3_XXS.gguf	IQ3_XXS	9.28GB	false	质量较低，新方法，性能不错，与 Q3 量化相当。
Dans-PersonalityEngine-V1.2.0-24b-Q2_K.gguf	Q2_K	8.89GB	false	质量非常低，但出人意料地可用。
Dans-PersonalityEngine-V1.2.0-24b-IQ2_M.gguf	IQ2_M	8.11GB	false	相对低质量，使用最先进的技术，出人意料地可用。
Dans-PersonalityEngine-V1.2.0-24b-IQ2_S.gguf	IQ2_S	7.48GB	false	低质量，使用最先进的技术，可用。
Dans-PersonalityEngine-V1.2.0-24b-IQ2_XS.gguf	IQ2_XS	7.21GB	false	低质量，使用最先进的技术，可用。

✨ 主要特性

多量化类型：提供多种量化类型，如 QX_K_X 和 IQX_X 等，以满足不同的性能和质量需求。
在线重新打包：部分量化文件支持在线重新打包，可在 ARM 和 AVX 机器上提高性能。
性能优化：不同的量化类型在不同的硬件和场景下提供了性能和质量的平衡。

📦 安装指南

使用 huggingface-cli 下载

首先，确保你已经安装了 huggingface-cli：

pip install -U "huggingface_hub[cli]"

然后，你可以指定要下载的特定文件：

huggingface-cli download bartowski/PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-GGUF --include "PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-Q4_K_M.gguf" --local-dir ./

如果模型大于 50GB，它将被分割成多个文件。要将它们全部下载到本地文件夹，请运行：

huggingface-cli download bartowski/PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-GGUF --include "PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录（如 PocketDoc_Dans-PersonalityEngine-V1.2.0-24b-Q8_0），也可以将它们全部下载到当前目录（./）。

💻 使用示例

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📚 详细文档

嵌入/输出权重

部分量化文件（如 Q3_K_XL、Q4_K_L 等）采用标准量化方法，将嵌入和输出权重量化为 Q8_0，而不是默认值。

ARM/AVX 信息

以前，你会下载 Q4_0_4_4/4_8/8_8 文件，这些文件的权重在内存中交错排列，以便在 ARM 和 AVX 机器上通过一次加载更多数据来提高性能。

现在，有了所谓的权重“在线重新打包”功能，详情见此 PR。如果你使用 Q4_0 并且你的硬件可以从重新打包权重中受益，它将在运行时自动进行。

从 llama.cpp 版本 b4282 开始，你将无法运行 Q4_0_X_X 文件，而需要使用 Q4_0。

此外，如果你想获得稍好的质量，可以使用 IQ4_NL，这得益于此 PR，它也会为 ARM 重新打包权重，但目前仅适用于 4_4。加载时间可能会更长，但总体速度会提高。

选择合适的文件

一篇带有图表展示各种性能的优秀文章由 Artefact2 提供，点击查看。

首先，你需要确定你可以运行多大的模型。为此，你需要了解你有多少 RAM 和/或 VRAM。

如果你希望模型运行得尽可能快，你需要将整个模型放入 GPU 的 VRAM 中。选择文件大小比你的 GPU 总 VRAM 小 1 - 2GB 的量化文件。

如果你追求绝对最高质量，将系统 RAM 和 GPU 的 VRAM 相加，然后选择文件大小比该总和小 1 - 2GB 的量化文件。

接下来，你需要决定是否使用“I - 量化”或“K - 量化”。

如果你不想考虑太多，可以选择 K - 量化文件，格式为 'QX_K_X'，如 Q5_K_M。

如果你想深入了解，可以查看这个非常有用的功能图表：llama.cpp 功能矩阵。

一般来说，如果你目标是低于 Q4 的量化，并且你使用的是 cuBLAS（Nvidia）或 rocBLAS（AMD），你应该考虑 I - 量化文件，格式为 IQX_X，如 IQ3_M。这些是较新的文件，在相同大小下提供更好的性能。

这些 I - 量化文件也可以在 CPU 和苹果 Metal 上使用，但比对应的 K - 量化文件慢，因此你需要在速度和性能之间做出权衡。

I - 量化文件与 Vulcan（也是 AMD）不兼容，所以如果你有 AMD 显卡，请仔细检查你使用的是 rocBLAS 版本还是 Vulcan 版本。在撰写本文时，LM Studio 有一个支持 ROCm 的预览版，其他推理引擎也有针对 ROCm 的特定版本。

🔧 技术细节

量化方法

使用 llama.cpp 版本 b4738 进行量化。所有量化文件都使用 imatrix 选项，并使用来自此处的数据集。

性能基准

在 AVX2 系统（EPYC7702）上的基准测试表明，Q4_0_8_8 在提示处理方面有显著提升，在文本生成方面也有小幅提升。具体基准测试数据如下：

模型	大小	参数	后端	线程数	测试类型	每秒令牌数	与 Q4_0 相比
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%