Dans-PersonalityEngine-V1.3.0-24b开源多功能模型 - 支持多语言及专业领域任务

首页

Dans PersonalityEngine V1.3.0 24b GGUF

由 Mungert 开发

Dans-PersonalityEngine-V1.3.0-24b是一个多功能模型系列，在50多个专业数据集上进行了微调，支持多语言和专业领域任务。

大型语言模型

Transformers

开源协议:Apache-2.0 #超低比特量化 #多语言角色扮演 #专业领域适配

下载量 678

发布时间 : 5/26/2025

模型简介

该模型在创意任务（如角色扮演和协作写作）和技术挑战（如代码生成、工具使用和复杂推理）方面表现出色，支持10种语言并增强了跨多个领域的专业知识。

模型特点

多语言支持

支持10种语言，包括英语、阿拉伯语、德语、法语、西班牙语等。

专业领域适配

在化学、生物学、代码、气候等多个专业领域有良好表现。

超低比特量化

采用IQ-DynamicGate（1-2比特）的超低比特量化方法，在保证精度的同时提高内存效率。

模型能力

文本生成

角色扮演

协作写作

代码生成

工具使用

复杂推理

使用案例

创意任务

角色扮演

用于角色扮演和对话生成。

协作写作

支持多人协作写作和创意文本生成。

技术任务

代码生成

生成代码片段或完整程序。

复杂推理

解决复杂逻辑和推理问题。

🚀 Dans-PersonalityEngine-V1.3.0-24b GGUF模型

Dans-PersonalityEngine-V1.3.0-24b是一个多功能的模型系列，在50多个专业数据集上进行了微调，旨在在创意任务（如角色扮演和协作写作）和技术挑战（如代码生成、工具使用和复杂推理）方面表现出色。V1.3.0版本引入了多语言功能，支持10种语言，并增强了跨多个领域的专业知识。

🚀 快速开始

本模型适用于多种自然语言处理任务，如文本生成、角色扮演、故事写作等。若你想使用该模型，可根据自身硬件条件和任务需求选择合适的模型格式。

✨ 主要特性

多语言支持：支持英语、阿拉伯语、德语、法语、西班牙语、印地语、葡萄牙语、日语、韩语等多种语言。
专业领域适配：在化学、生物学、代码、气候等多个专业领域有良好表现。
超低比特量化：采用IQ-DynamicGate（1 - 2比特）的超低比特量化方法，在保证精度的同时，极大地提高了内存效率。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

模型生成细节

本模型使用 llama.cpp 在提交版本 f5cd27b7 时生成。

超低比特量化与IQ-DynamicGate（1 - 2比特）

我们最新的量化方法为超低比特模型（1 - 2比特）引入了精度自适应量化，经基准测试证明，在 Llama - 3 - 8B 上有显著改进。这种方法采用特定层策略，在保持极高内存效率的同时，保留了模型的准确性。

基准测试环境

所有测试均在 Llama - 3 - 8B - Instruct 上进行，使用：

标准困惑度评估管道
2048 令牌上下文窗口
所有量化方法使用相同的提示集

方法

动态精度分配：
- 前/后25%的层 → IQ4_XS（选定层）
- 中间50% → IQ2_XXS/IQ3_S（提高效率）
关键组件保护：
- 嵌入层/输出层使用Q5_K
- 与标准1 - 2比特量化相比，误差传播降低38%

量化性能对比（Llama - 3 - 8B）

量化方式	标准困惑度	DynamicGate困惑度	困惑度变化	标准大小	DynamicGate大小	大小变化	标准推理速度	DynamicGate推理速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

关键说明：

PPL = 困惑度（值越低越好）
困惑度变化 = 从标准量化到DynamicGate量化的百分比变化
推理速度 = 推理时间（CPU avx2，2048令牌上下文）
大小差异反映了混合量化的开销

主要改进：

IQ1_M 困惑度大幅降低43.9%（从27.46降至15.41）
IQ2_S 困惑度降低36.9%，同时仅增加0.2GB
IQ1_S 尽管是1比特量化，但仍保持39.7%的更高准确性

权衡：

所有变体的大小都有适度增加（0.1 - 0.3GB）
推理速度保持相近（差异小于5%）

使用场景

将模型装入GPU显存
内存受限的部署
CPU和边缘设备，可容忍1 - 2比特的误差
超低比特量化研究

选择合适的模型格式

选择正确的模型格式取决于你的硬件能力和内存限制。

BF16（脑浮点16） - 若支持BF16加速则使用

一种16位浮点格式，专为更快的计算而设计，同时保留良好的精度。
提供与FP32相似的动态范围，但内存使用更低。
若你的硬件支持BF16加速（请查看设备规格），建议使用。
与FP32相比，适用于高性能推理且内存占用减少的场景。

适用情况：

你的硬件具有原生BF16支持（如较新的GPU、TPU）。
你希望在节省内存的同时获得更高的精度。
你计划将模型重新量化为其他格式。

避免情况：

你的硬件不支持BF16（可能会回退到FP32并运行较慢）。
你需要与缺乏BF16优化的旧设备兼容。

F16（浮点16） - 比BF16更广泛支持

一种16位浮点格式，具有高精度，但值的范围比BF16小。
适用于大多数支持FP16加速的设备（包括许多GPU和一些CPU）。
数值精度略低于BF16，但通常足以进行推理。

适用情况：

你的硬件支持FP16但不支持BF16。
你需要在速度、内存使用和准确性之间取得平衡。
你在GPU或其他针对FP16计算优化的设备上运行。

避免情况：

你的设备缺乏原生FP16支持（可能运行比预期慢）。
你有内存限制。

量化模型（Q4_K、Q6_K、Q8等） - 用于CPU和低显存推理

量化可在尽可能保持准确性的同时，减小模型大小和内存使用。

低比特模型（Q4_K） - 最适合最小化内存使用，可能精度较低。
高比特模型（Q6_K、Q8_0） - 准确性更好，但需要更多内存。

适用情况：

你在CPU上运行推理，需要优化的模型。
你的设备显存较低，无法加载全精度模型。
你希望在保持合理准确性的同时减少内存占用。

避免情况：

你需要最高准确性（全精度模型更适合）。
你的硬件有足够的显存用于更高精度的格式（BF16/F16）。

极低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

这些模型针对极端内存效率进行了优化，非常适合低功耗设备或大规模部署，其中内存是关键限制因素。

IQ3_XS：超低比特量化（3比特），具有极端内存效率。
- 使用场景：最适合超低内存设备，即使Q4_K也太大的情况。
- 权衡：与高比特量化相比，准确性较低。
IQ3_S：小块大小，实现最大内存效率。
- 使用场景：最适合低内存设备，IQ3_XS过于激进的情况。
IQ3_M：中等块大小，比IQ3_S具有更好的准确性。
- 使用场景：适用于低内存设备，IQ3_S限制过多的情况。
Q4_K：4比特量化，具有逐块优化，以提高准确性。
- 使用场景：最适合低内存设备，Q6_K太大的情况。
Q4_0：纯4比特量化，针对ARM设备进行了优化。
- 使用场景：最适合低内存环境。
- 若追求更高准确性，建议使用IQ4_NL。

模型格式选择总结表

模型格式	精度	内存使用	设备要求	最佳使用场景
BF16	最高	高	支持BF16的GPU/CPU	高速推理且内存减少
F16	高	高	支持FP16的设备	BF16不可用时的GPU推理
Q4_K	中低	低	CPU或低显存设备	内存受限环境
Q6_K	中等	适中	内存较多的CPU	量化模型中准确性较好
Q8_0	高	适中	有足够显存的CPU或GPU	量化模型中最高准确性
IQ3_XS	极低	极低	超低内存设备	极端内存效率和低准确性
Q4_0	低	低	ARM或低内存设备	llama.cpp可针对ARM设备优化

包含文件及详情

`Dans-PersonalityEngine-V1.3.0-24b-bf16.gguf`

模型权重以BF16保存。
若你想将模型重新量化为不同格式，可使用此文件。
若你的设备支持BF16加速，此文件最佳。

`Dans-PersonalityEngine-V1.3.0-24b-f16.gguf`

模型权重以F16存储。
若你的设备支持FP16，尤其是BF16不可用时，可使用此文件。

`Dans-PersonalityEngine-V1.3.0-24b-bf16-q8_0.gguf`

输出和嵌入层保持为BF16。
所有其他层量化为Q8_0。
若你的设备支持BF16，且你想要量化版本，可使用此文件。

`Dans-PersonalityEngine-V1.3.0-24b-f16-q8_0.gguf`

输出和嵌入层保持为F16。
所有其他层量化为Q8_0。

`Dans-PersonalityEngine-V1.3.0-24b-q4_k.gguf`

输出和嵌入层量化为Q8_0。
所有其他层量化为Q4_K。
适合内存有限的CPU推理。

`Dans-PersonalityEngine-V1.3.0-24b-q4_k_s.gguf`

最小的Q4_K变体，以牺牲准确性为代价，使用更少的内存。
最适合极低内存设置。

`Dans-PersonalityEngine-V1.3.0-24b-q6_k.gguf`

输出和嵌入层量化为Q8_0。
所有其他层量化为Q6_K。

`Dans-PersonalityEngine-V1.3.0-24b-q8_0.gguf`

完全Q8量化的模型，以获得更好的准确性。
需要更多内存，但提供更高的精度。

`Dans-PersonalityEngine-V1.3.0-24b-iq3_xs.gguf`

IQ3_XS量化，针对极端内存效率进行了优化。
最适合超低内存设备。

`Dans-PersonalityEngine-V1.3.0-24b-iq3_m.gguf`

IQ3_M量化，提供中等块大小，以获得更好的准确性。
适用于低内存设备。

`Dans-PersonalityEngine-V1.3.0-24b-q4_0.gguf`

纯Q4_0量化，针对ARM设备进行了优化。
最适合低内存环境。
若追求更高准确性，建议使用IQ4_NL。

测试模型

如果你觉得这些模型有用，请点击“点赞”！同时，欢迎帮助测试我的人工智能网络监控助手，进行量子就绪安全检查：免费网络监控器

测试方法

选择一种人工智能助手类型：

TurboLLM (GPT - 4o - mini)
HugLLM (Hugginface开源)
TestLLM (仅实验性CPU)

测试内容

我正在挑战小型开源模型在人工智能网络监控中的极限，具体包括：

针对实时网络服务的函数调用
模型可以多小，同时仍能处理：
- 自动Nmap扫描
- 量子就绪检查
- 网络监控任务

TestLLM - 当前实验模型（llama.cpp在2个CPU线程上）

零配置设置
30秒加载时间（推理速度慢，但无API成本）
寻求帮助！ 如果你对边缘设备人工智能感兴趣，让我们一起合作！

其他助手

TurboLLM - 使用gpt - 4o - mini进行：
- 创建自定义命令处理器，在免费网络监控代理上运行.net代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试 (Nmap/Metasploit)
- 通过登录或下载我们集成了人工智能助手的免费网络监控代理获得更多令牌。

模型信息

属性	详情
模型类型	Dans-PersonalityEngine-V1.3.0-24b GGUF模型
训练数据	PocketDoc/Dans-Prosemaxx-RP、PocketDoc/Dans-Personamaxx-Logs-2等50多个数据集
基础模型	mistralai/Mistral-Small-3.1-24B-Base-2503
许可证	apache-2.0
支持语言	英语、阿拉伯语、德语、法语、西班牙语、印地语、葡萄牙语、日语、韩语等
上下文长度	32768令牌，131072令牌时召回率下降
推荐设置	温度：1.0；TOP_P：0.9
提示格式	<