Dans PersonalityEngine V1.3.0 24b GGUF
D
Dans PersonalityEngine V1.3.0 24b GGUF
由Mungert開發
Dans-PersonalityEngine-V1.3.0-24b是一個多功能模型系列,在50多個專業數據集上進行了微調,支持多語言和專業領域任務。
下載量 678
發布時間 : 5/26/2025
模型概述
該模型在創意任務(如角色扮演和協作寫作)和技術挑戰(如代碼生成、工具使用和複雜推理)方面表現出色,支持10種語言並增強了跨多個領域的專業知識。
模型特點
多語言支持
支持10種語言,包括英語、阿拉伯語、德語、法語、西班牙語等。
專業領域適配
在化學、生物學、代碼、氣候等多個專業領域有良好表現。
超低比特量化
採用IQ-DynamicGate(1-2比特)的超低比特量化方法,在保證精度的同時提高內存效率。
模型能力
文本生成
角色扮演
協作寫作
代碼生成
工具使用
複雜推理
使用案例
創意任務
角色扮演
用於角色扮演和對話生成。
協作寫作
支持多人協作寫作和創意文本生成。
技術任務
代碼生成
生成代碼片段或完整程序。
複雜推理
解決複雜邏輯和推理問題。
🚀 Dans-PersonalityEngine-V1.3.0-24b GGUF模型
Dans-PersonalityEngine-V1.3.0-24b是一個多功能的模型系列,在50多個專業數據集上進行了微調,旨在在創意任務(如角色扮演和協作寫作)和技術挑戰(如代碼生成、工具使用和複雜推理)方面表現出色。V1.3.0版本引入了多語言功能,支持10種語言,並增強了跨多個領域的專業知識。
🚀 快速開始
本模型適用於多種自然語言處理任務,如文本生成、角色扮演、故事寫作等。若你想使用該模型,可根據自身硬件條件和任務需求選擇合適的模型格式。
✨ 主要特性
- 多語言支持:支持英語、阿拉伯語、德語、法語、西班牙語、印地語、葡萄牙語、日語、韓語等多種語言。
- 專業領域適配:在化學、生物學、代碼、氣候等多個專業領域有良好表現。
- 超低比特量化:採用IQ-DynamicGate(1 - 2比特)的超低比特量化方法,在保證精度的同時,極大地提高了內存效率。
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
文檔未提供代碼示例,暫不展示。
📚 詳細文檔
模型生成細節
本模型使用 llama.cpp 在提交版本 f5cd27b7
時生成。
超低比特量化與IQ-DynamicGate(1 - 2比特)
我們最新的量化方法為超低比特模型(1 - 2比特)引入了精度自適應量化,經基準測試證明,在 Llama - 3 - 8B 上有顯著改進。這種方法採用特定層策略,在保持極高內存效率的同時,保留了模型的準確性。
基準測試環境
所有測試均在 Llama - 3 - 8B - Instruct 上進行,使用:
- 標準困惑度評估管道
- 2048 令牌上下文窗口
- 所有量化方法使用相同的提示集
方法
- 動態精度分配:
- 前/後25%的層 → IQ4_XS(選定層)
- 中間50% → IQ2_XXS/IQ3_S(提高效率)
- 關鍵組件保護:
- 嵌入層/輸出層使用Q5_K
- 與標準1 - 2比特量化相比,誤差傳播降低38%
量化性能對比(Llama - 3 - 8B)
量化方式 | 標準困惑度 | DynamicGate困惑度 | 困惑度變化 | 標準大小 | DynamicGate大小 | 大小變化 | 標準推理速度 | DynamicGate推理速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
關鍵說明:
- PPL = 困惑度(值越低越好)
- 困惑度變化 = 從標準量化到DynamicGate量化的百分比變化
- 推理速度 = 推理時間(CPU avx2,2048令牌上下文)
- 大小差異反映了混合量化的開銷
主要改進:
- IQ1_M 困惑度大幅降低43.9%(從27.46降至15.41)
- IQ2_S 困惑度降低36.9%,同時僅增加0.2GB
- IQ1_S 儘管是1比特量化,但仍保持39.7%的更高準確性
權衡:
- 所有變體的大小都有適度增加(0.1 - 0.3GB)
- 推理速度保持相近(差異小於5%)
使用場景
- 將模型裝入GPU顯存
- 內存受限的部署
- CPU和邊緣設備,可容忍1 - 2比特的誤差
- 超低比特量化研究
選擇合適的模型格式
選擇正確的模型格式取決於你的硬件能力和內存限制。
BF16(腦浮點16) - 若支持BF16加速則使用
- 一種16位浮點格式,專為更快的計算而設計,同時保留良好的精度。
- 提供與FP32相似的動態範圍,但內存使用更低。
- 若你的硬件支持BF16加速(請查看設備規格),建議使用。
- 與FP32相比,適用於高性能推理且內存佔用減少的場景。
適用情況:
- 你的硬件具有原生BF16支持(如較新的GPU、TPU)。
- 你希望在節省內存的同時獲得更高的精度。
- 你計劃將模型重新量化為其他格式。
避免情況:
- 你的硬件不支持BF16(可能會回退到FP32並運行較慢)。
- 你需要與缺乏BF16優化的舊設備兼容。
F16(浮點16) - 比BF16更廣泛支持
- 一種16位浮點格式,具有高精度,但值的範圍比BF16小。
- 適用於大多數支持FP16加速的設備(包括許多GPU和一些CPU)。
- 數值精度略低於BF16,但通常足以進行推理。
適用情況:
- 你的硬件支持FP16但不支持BF16。
- 你需要在速度、內存使用和準確性之間取得平衡。
- 你在GPU或其他針對FP16計算優化的設備上運行。
避免情況:
- 你的設備缺乏原生FP16支持(可能運行比預期慢)。
- 你有內存限制。
量化模型(Q4_K、Q6_K、Q8等) - 用於CPU和低顯存推理
量化可在儘可能保持準確性的同時,減小模型大小和內存使用。
- 低比特模型(Q4_K) - 最適合最小化內存使用,可能精度較低。
- 高比特模型(Q6_K、Q8_0) - 準確性更好,但需要更多內存。
適用情況:
- 你在CPU上運行推理,需要優化的模型。
- 你的設備顯存較低,無法加載全精度模型。
- 你希望在保持合理準確性的同時減少內存佔用。
避免情況:
- 你需要最高準確性(全精度模型更適合)。
- 你的硬件有足夠的顯存用於更高精度的格式(BF16/F16)。
極低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
這些模型針對極端內存效率進行了優化,非常適合低功耗設備或大規模部署,其中內存是關鍵限制因素。
- IQ3_XS:超低比特量化(3比特),具有極端內存效率。
- 使用場景:最適合超低內存設備,即使Q4_K也太大的情況。
- 權衡:與高比特量化相比,準確性較低。
- IQ3_S:小塊大小,實現最大內存效率。
- 使用場景:最適合低內存設備,IQ3_XS過於激進的情況。
- IQ3_M:中等塊大小,比IQ3_S具有更好的準確性。
- 使用場景:適用於低內存設備,IQ3_S限制過多的情況。
- Q4_K:4比特量化,具有逐塊優化,以提高準確性。
- 使用場景:最適合低內存設備,Q6_K太大的情況。
- Q4_0:純4比特量化,針對ARM設備進行了優化。
- 使用場景:最適合低內存環境。
- 若追求更高準確性,建議使用IQ4_NL。
模型格式選擇總結表
模型格式 | 精度 | 內存使用 | 設備要求 | 最佳使用場景 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 高速推理且內存減少 |
F16 | 高 | 高 | 支持FP16的設備 | BF16不可用時的GPU推理 |
Q4_K | 中低 | 低 | CPU或低顯存設備 | 內存受限環境 |
Q6_K | 中等 | 適中 | 內存較多的CPU | 量化模型中準確性較好 |
Q8_0 | 高 | 適中 | 有足夠顯存的CPU或GPU | 量化模型中最高準確性 |
IQ3_XS | 極低 | 極低 | 超低內存設備 | 極端內存效率和低準確性 |
Q4_0 | 低 | 低 | ARM或低內存設備 | llama.cpp可針對ARM設備優化 |
包含文件及詳情
Dans-PersonalityEngine-V1.3.0-24b-bf16.gguf
- 模型權重以BF16保存。
- 若你想將模型重新量化為不同格式,可使用此文件。
- 若你的設備支持BF16加速,此文件最佳。
Dans-PersonalityEngine-V1.3.0-24b-f16.gguf
- 模型權重以F16存儲。
- 若你的設備支持FP16,尤其是BF16不可用時,可使用此文件。
Dans-PersonalityEngine-V1.3.0-24b-bf16-q8_0.gguf
- 輸出和嵌入層保持為BF16。
- 所有其他層量化為Q8_0。
- 若你的設備支持BF16,且你想要量化版本,可使用此文件。
Dans-PersonalityEngine-V1.3.0-24b-f16-q8_0.gguf
- 輸出和嵌入層保持為F16。
- 所有其他層量化為Q8_0。
Dans-PersonalityEngine-V1.3.0-24b-q4_k.gguf
- 輸出和嵌入層量化為Q8_0。
- 所有其他層量化為Q4_K。
- 適合內存有限的CPU推理。
Dans-PersonalityEngine-V1.3.0-24b-q4_k_s.gguf
- 最小的Q4_K變體,以犧牲準確性為代價,使用更少的內存。
- 最適合極低內存設置。
Dans-PersonalityEngine-V1.3.0-24b-q6_k.gguf
- 輸出和嵌入層量化為Q8_0。
- 所有其他層量化為Q6_K。
Dans-PersonalityEngine-V1.3.0-24b-q8_0.gguf
- 完全Q8量化的模型,以獲得更好的準確性。
- 需要更多內存,但提供更高的精度。
Dans-PersonalityEngine-V1.3.0-24b-iq3_xs.gguf
- IQ3_XS量化,針對極端內存效率進行了優化。
- 最適合超低內存設備。
Dans-PersonalityEngine-V1.3.0-24b-iq3_m.gguf
- IQ3_M量化,提供中等塊大小,以獲得更好的準確性。
- 適用於低內存設備。
Dans-PersonalityEngine-V1.3.0-24b-q4_0.gguf
- 純Q4_0量化,針對ARM設備進行了優化。
- 最適合低內存環境。
- 若追求更高準確性,建議使用IQ4_NL。
測試模型
如果你覺得這些模型有用,請點擊“點贊”!同時,歡迎幫助測試我的人工智能網絡監控助手,進行量子就緒安全檢查: 免費網絡監控器
測試方法
選擇一種人工智能助手類型:
TurboLLM
(GPT - 4o - mini)HugLLM
(Hugginface開源)TestLLM
(僅實驗性CPU)
測試內容
我正在挑戰小型開源模型在人工智能網絡監控中的極限,具體包括:
- 針對即時網絡服務的函數調用
- 模型可以多小,同時仍能處理:
- 自動Nmap掃描
- 量子就緒檢查
- 網絡監控任務
TestLLM - 當前實驗模型(llama.cpp在2個CPU線程上)
- 零配置設置
- 30秒加載時間(推理速度慢,但無API成本)
- 尋求幫助! 如果你對邊緣設備人工智能感興趣,讓我們一起合作!
其他助手
- TurboLLM - 使用gpt - 4o - mini進行:
- 創建自定義命令處理器,在免費網絡監控代理上運行.net代碼
- 即時網絡診斷和監控
- 安全審計
- 滲透測試 (Nmap/Metasploit)
- 通過登錄或下載我們集成了人工智能助手的免費網絡監控代理獲得更多令牌。
模型信息
屬性 | 詳情 |
---|---|
模型類型 | Dans-PersonalityEngine-V1.3.0-24b GGUF模型 |
訓練數據 | PocketDoc/Dans-Prosemaxx-RP、PocketDoc/Dans-Personamaxx-Logs-2等50多個數據集 |
基礎模型 | mistralai/Mistral-Small-3.1-24B-Base-2503 |
許可證 | apache-2.0 |
支持語言 | 英語、阿拉伯語、德語、法語、西班牙語、印地語、葡萄牙語、日語、韓語等 |
上下文長度 | 32768令牌,131072令牌時召回率下降 |
推薦設置 | 溫度:1.0;TOP_P:0.9 |
提示格式 | < |
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98