Dans PersonalityEngine V1.3.0 24b GGUF
D
Dans PersonalityEngine V1.3.0 24b GGUF
由 Mungert 开发
Dans-PersonalityEngine-V1.3.0-24b是一个多功能模型系列,在50多个专业数据集上进行了微调,支持多语言和专业领域任务。
下载量 678
发布时间 : 5/26/2025
模型简介
该模型在创意任务(如角色扮演和协作写作)和技术挑战(如代码生成、工具使用和复杂推理)方面表现出色,支持10种语言并增强了跨多个领域的专业知识。
模型特点
多语言支持
支持10种语言,包括英语、阿拉伯语、德语、法语、西班牙语等。
专业领域适配
在化学、生物学、代码、气候等多个专业领域有良好表现。
超低比特量化
采用IQ-DynamicGate(1-2比特)的超低比特量化方法,在保证精度的同时提高内存效率。
模型能力
文本生成
角色扮演
协作写作
代码生成
工具使用
复杂推理
使用案例
创意任务
角色扮演
用于角色扮演和对话生成。
协作写作
支持多人协作写作和创意文本生成。
技术任务
代码生成
生成代码片段或完整程序。
复杂推理
解决复杂逻辑和推理问题。
🚀 Dans-PersonalityEngine-V1.3.0-24b GGUF模型
Dans-PersonalityEngine-V1.3.0-24b是一个多功能的模型系列,在50多个专业数据集上进行了微调,旨在在创意任务(如角色扮演和协作写作)和技术挑战(如代码生成、工具使用和复杂推理)方面表现出色。V1.3.0版本引入了多语言功能,支持10种语言,并增强了跨多个领域的专业知识。
🚀 快速开始
本模型适用于多种自然语言处理任务,如文本生成、角色扮演、故事写作等。若你想使用该模型,可根据自身硬件条件和任务需求选择合适的模型格式。
✨ 主要特性
- 多语言支持:支持英语、阿拉伯语、德语、法语、西班牙语、印地语、葡萄牙语、日语、韩语等多种语言。
- 专业领域适配:在化学、生物学、代码、气候等多个专业领域有良好表现。
- 超低比特量化:采用IQ-DynamicGate(1 - 2比特)的超低比特量化方法,在保证精度的同时,极大地提高了内存效率。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
文档未提供代码示例,暂不展示。
📚 详细文档
模型生成细节
本模型使用 llama.cpp 在提交版本 f5cd27b7
时生成。
超低比特量化与IQ-DynamicGate(1 - 2比特)
我们最新的量化方法为超低比特模型(1 - 2比特)引入了精度自适应量化,经基准测试证明,在 Llama - 3 - 8B 上有显著改进。这种方法采用特定层策略,在保持极高内存效率的同时,保留了模型的准确性。
基准测试环境
所有测试均在 Llama - 3 - 8B - Instruct 上进行,使用:
- 标准困惑度评估管道
- 2048 令牌上下文窗口
- 所有量化方法使用相同的提示集
方法
- 动态精度分配:
- 前/后25%的层 → IQ4_XS(选定层)
- 中间50% → IQ2_XXS/IQ3_S(提高效率)
- 关键组件保护:
- 嵌入层/输出层使用Q5_K
- 与标准1 - 2比特量化相比,误差传播降低38%
量化性能对比(Llama - 3 - 8B)
量化方式 | 标准困惑度 | DynamicGate困惑度 | 困惑度变化 | 标准大小 | DynamicGate大小 | 大小变化 | 标准推理速度 | DynamicGate推理速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
关键说明:
- PPL = 困惑度(值越低越好)
- 困惑度变化 = 从标准量化到DynamicGate量化的百分比变化
- 推理速度 = 推理时间(CPU avx2,2048令牌上下文)
- 大小差异反映了混合量化的开销
主要改进:
- IQ1_M 困惑度大幅降低43.9%(从27.46降至15.41)
- IQ2_S 困惑度降低36.9%,同时仅增加0.2GB
- IQ1_S 尽管是1比特量化,但仍保持39.7%的更高准确性
权衡:
- 所有变体的大小都有适度增加(0.1 - 0.3GB)
- 推理速度保持相近(差异小于5%)
使用场景
- 将模型装入GPU显存
- 内存受限的部署
- CPU和边缘设备,可容忍1 - 2比特的误差
- 超低比特量化研究
选择合适的模型格式
选择正确的模型格式取决于你的硬件能力和内存限制。
BF16(脑浮点16) - 若支持BF16加速则使用
- 一种16位浮点格式,专为更快的计算而设计,同时保留良好的精度。
- 提供与FP32相似的动态范围,但内存使用更低。
- 若你的硬件支持BF16加速(请查看设备规格),建议使用。
- 与FP32相比,适用于高性能推理且内存占用减少的场景。
适用情况:
- 你的硬件具有原生BF16支持(如较新的GPU、TPU)。
- 你希望在节省内存的同时获得更高的精度。
- 你计划将模型重新量化为其他格式。
避免情况:
- 你的硬件不支持BF16(可能会回退到FP32并运行较慢)。
- 你需要与缺乏BF16优化的旧设备兼容。
F16(浮点16) - 比BF16更广泛支持
- 一种16位浮点格式,具有高精度,但值的范围比BF16小。
- 适用于大多数支持FP16加速的设备(包括许多GPU和一些CPU)。
- 数值精度略低于BF16,但通常足以进行推理。
适用情况:
- 你的硬件支持FP16但不支持BF16。
- 你需要在速度、内存使用和准确性之间取得平衡。
- 你在GPU或其他针对FP16计算优化的设备上运行。
避免情况:
- 你的设备缺乏原生FP16支持(可能运行比预期慢)。
- 你有内存限制。
量化模型(Q4_K、Q6_K、Q8等) - 用于CPU和低显存推理
量化可在尽可能保持准确性的同时,减小模型大小和内存使用。
- 低比特模型(Q4_K) - 最适合最小化内存使用,可能精度较低。
- 高比特模型(Q6_K、Q8_0) - 准确性更好,但需要更多内存。
适用情况:
- 你在CPU上运行推理,需要优化的模型。
- 你的设备显存较低,无法加载全精度模型。
- 你希望在保持合理准确性的同时减少内存占用。
避免情况:
- 你需要最高准确性(全精度模型更适合)。
- 你的硬件有足够的显存用于更高精度的格式(BF16/F16)。
极低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
这些模型针对极端内存效率进行了优化,非常适合低功耗设备或大规模部署,其中内存是关键限制因素。
- IQ3_XS:超低比特量化(3比特),具有极端内存效率。
- 使用场景:最适合超低内存设备,即使Q4_K也太大的情况。
- 权衡:与高比特量化相比,准确性较低。
- IQ3_S:小块大小,实现最大内存效率。
- 使用场景:最适合低内存设备,IQ3_XS过于激进的情况。
- IQ3_M:中等块大小,比IQ3_S具有更好的准确性。
- 使用场景:适用于低内存设备,IQ3_S限制过多的情况。
- Q4_K:4比特量化,具有逐块优化,以提高准确性。
- 使用场景:最适合低内存设备,Q6_K太大的情况。
- Q4_0:纯4比特量化,针对ARM设备进行了优化。
- 使用场景:最适合低内存环境。
- 若追求更高准确性,建议使用IQ4_NL。
模型格式选择总结表
模型格式 | 精度 | 内存使用 | 设备要求 | 最佳使用场景 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 高速推理且内存减少 |
F16 | 高 | 高 | 支持FP16的设备 | BF16不可用时的GPU推理 |
Q4_K | 中低 | 低 | CPU或低显存设备 | 内存受限环境 |
Q6_K | 中等 | 适中 | 内存较多的CPU | 量化模型中准确性较好 |
Q8_0 | 高 | 适中 | 有足够显存的CPU或GPU | 量化模型中最高准确性 |
IQ3_XS | 极低 | 极低 | 超低内存设备 | 极端内存效率和低准确性 |
Q4_0 | 低 | 低 | ARM或低内存设备 | llama.cpp可针对ARM设备优化 |
包含文件及详情
Dans-PersonalityEngine-V1.3.0-24b-bf16.gguf
- 模型权重以BF16保存。
- 若你想将模型重新量化为不同格式,可使用此文件。
- 若你的设备支持BF16加速,此文件最佳。
Dans-PersonalityEngine-V1.3.0-24b-f16.gguf
- 模型权重以F16存储。
- 若你的设备支持FP16,尤其是BF16不可用时,可使用此文件。
Dans-PersonalityEngine-V1.3.0-24b-bf16-q8_0.gguf
- 输出和嵌入层保持为BF16。
- 所有其他层量化为Q8_0。
- 若你的设备支持BF16,且你想要量化版本,可使用此文件。
Dans-PersonalityEngine-V1.3.0-24b-f16-q8_0.gguf
- 输出和嵌入层保持为F16。
- 所有其他层量化为Q8_0。
Dans-PersonalityEngine-V1.3.0-24b-q4_k.gguf
- 输出和嵌入层量化为Q8_0。
- 所有其他层量化为Q4_K。
- 适合内存有限的CPU推理。
Dans-PersonalityEngine-V1.3.0-24b-q4_k_s.gguf
- 最小的Q4_K变体,以牺牲准确性为代价,使用更少的内存。
- 最适合极低内存设置。
Dans-PersonalityEngine-V1.3.0-24b-q6_k.gguf
- 输出和嵌入层量化为Q8_0。
- 所有其他层量化为Q6_K。
Dans-PersonalityEngine-V1.3.0-24b-q8_0.gguf
- 完全Q8量化的模型,以获得更好的准确性。
- 需要更多内存,但提供更高的精度。
Dans-PersonalityEngine-V1.3.0-24b-iq3_xs.gguf
- IQ3_XS量化,针对极端内存效率进行了优化。
- 最适合超低内存设备。
Dans-PersonalityEngine-V1.3.0-24b-iq3_m.gguf
- IQ3_M量化,提供中等块大小,以获得更好的准确性。
- 适用于低内存设备。
Dans-PersonalityEngine-V1.3.0-24b-q4_0.gguf
- 纯Q4_0量化,针对ARM设备进行了优化。
- 最适合低内存环境。
- 若追求更高准确性,建议使用IQ4_NL。
测试模型
如果你觉得这些模型有用,请点击“点赞”!同时,欢迎帮助测试我的人工智能网络监控助手,进行量子就绪安全检查: 免费网络监控器
测试方法
选择一种人工智能助手类型:
TurboLLM
(GPT - 4o - mini)HugLLM
(Hugginface开源)TestLLM
(仅实验性CPU)
测试内容
我正在挑战小型开源模型在人工智能网络监控中的极限,具体包括:
- 针对实时网络服务的函数调用
- 模型可以多小,同时仍能处理:
- 自动Nmap扫描
- 量子就绪检查
- 网络监控任务
TestLLM - 当前实验模型(llama.cpp在2个CPU线程上)
- 零配置设置
- 30秒加载时间(推理速度慢,但无API成本)
- 寻求帮助! 如果你对边缘设备人工智能感兴趣,让我们一起合作!
其他助手
- TurboLLM - 使用gpt - 4o - mini进行:
- 创建自定义命令处理器,在免费网络监控代理上运行.net代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试 (Nmap/Metasploit)
- 通过登录或下载我们集成了人工智能助手的免费网络监控代理获得更多令牌。
模型信息
属性 | 详情 |
---|---|
模型类型 | Dans-PersonalityEngine-V1.3.0-24b GGUF模型 |
训练数据 | PocketDoc/Dans-Prosemaxx-RP、PocketDoc/Dans-Personamaxx-Logs-2等50多个数据集 |
基础模型 | mistralai/Mistral-Small-3.1-24B-Base-2503 |
许可证 | apache-2.0 |
支持语言 | 英语、阿拉伯语、德语、法语、西班牙语、印地语、葡萄牙语、日语、韩语等 |
上下文长度 | 32768令牌,131072令牌时召回率下降 |
推荐设置 | 温度:1.0;TOP_P:0.9 |
提示格式 | < |
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98