🚀 超高畫質重製版:Psyonic - Cetacean - 20b
這是一款令人驚歎的超高畫質重製版模型。它將原有的 Psyonic - Cetacean - 20b 模型進行了全面升級,解決了模型在合併和壓縮過程中的精度損失問題,顯著提升了模型的性能和質量,為文本生成任務帶來了更出色的表現。
✨ 主要特性
- 浮點32位升級:所有組件和合並操作都被重製為浮點32位,包括所有合併(使用主文件重新創建),並儘可能替換為完整的FP32模型。
- 高精度保留:在模型處理的每個步驟都儘可能保留最大精度,直至“GUFF”處理階段。
- 性能顯著提升:在不同量化級別下,困惑度大幅下降,模型性能得到顯著提升。
- 功能增強:指令遵循能力顯著提高,出現新能力,散文質量、細微差別和深度均有改善,原模型的已知問題消失。
- 靈活設置:可通過調整“平滑因子”“重複懲罰”等參數,實現不同場景下的最佳性能。
📦 安裝指南
文檔未提及具體安裝步驟,可參考以下通用方式:
- 確保你已經安裝了合適的運行環境,如
KoboldCpp
、oobabooga/text - generation - webui
或 Silly Tavern
。
- 從指定的源版本下載模型及其配置文件:[https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be](https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be)
💻 使用示例
基礎用法
在 KoboldCpp
、oobabooga/text - generation - webui
或 Silly Tavern
中使用該模型進行文本生成。
高級用法
設置平滑因子
在不同工具中設置“平滑因子”以優化模型表現:
- 在
KoboldCpp
中:Settings -> Samplers -> Advanced -> "Smooth_F"
,設置為 1.5 到 2.5。
- 在
text - generation - webui
中:在參數設置的右下角進行設置。
- 在
Silly Tavern
中:設置“平滑”參數為 1.5 到 2.5。
其他參數調整
- 增加重複懲罰(rep pen)到 1.1 到 1.15(如果使用“平滑因子”則無需此操作)。
- 如果運行AI模型的界面/程序支持“二次採樣”(“平滑”),按說明進行調整。
📚 詳細文檔
最高質量設置/最佳操作指南/參數和採樣器
這是一個“2類”模型。有關該模型使用的所有設置(包括其“類”的具體設置)、示例生成以及高級設置指南(多次解決任何模型問題),包括提高所有用例(包括聊天、角色扮演等)模型性能的方法,請參閱:[https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters](https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters)
後續計劃
- 本倉庫之後將推出“常規量化加”倉庫,在GGUF(所有級別)中添加額外組件,以進一步提高創造力和AI能力。
- 隨後將推出完整的浮點32位精度Imatrix(包括常規量化的“imatrixed”)。
- Imatrix Plus倉庫(在“常規量化加”中具有相同的浮點32位增強)將進一步突破極限。Imatrix倉庫地址:[https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix](https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix)
🔧 技術細節
高精度重製原理
- 浮點32位升級:將模型的所有組件和合並操作重製為浮點32位,以保留最大精度。這包括使用主文件重新創建所有合併,並儘可能替換為完整的FP32模型。
- 減少精度損失:在模型處理的每個步驟都儘可能保留最大精度,直至“GUFF”處理階段。由於F32與BF16之間的差異超過8位小數,而每次合併和模型修改都會導致“損失”,這些損失會累積並影響模型性能。通過浮點32位升級,可以減少這些損失。
- 性能提升驗證:在不同量化級別下,模型的困惑度顯著下降,證明了高精度重製的有效性。例如,在Q2K、Q4KM和Q6量化級別下,困惑度分別下降了533、976和234點。
模型大小
GGUF的F32主文件大小高達78GB(相比20B模型平均38GB)。
性能對比
量化級別 |
原模型困惑度 |
重製後模型困惑度 |
困惑度下降點數 |
Q2K |
9.8077 +/- 0.06821 |
- |
533 |
Q4KM |
8.7858 +/- 0.06074 |
- |
976 |
Q6 |
8.6070 +/- 0.05907 |
- |
234 |
Q8 |
8.6012 +/- 0.05900 |
8.5850 +/- 0.05881 |
150 |
📄 許可證
本項目採用 Apache - 2.0
許可證。
⚠️ 重要提示
對於 text - generation - webui
,如果使用GGUFs,需要使用 llama_HF
(這涉及從該模型的源版本下載一些配置文件)。
💡 使用建議
- 可將“平滑因子”設置為 1.5 到 2.5 以優化模型在聊天、角色扮演等場景下的性能。
- 可根據需要增加重複懲罰到 1.1 到 1.15,但如果使用“平滑因子”則無需此操作。
- 如果運行AI模型的界面/程序支持“二次採樣”(“平滑”),可按說明進行調整。