Psyonic-Cetacean-Ultra-Quality-20b-GGUF開源模型

首頁

Psyonic Cetacean Ultra Quality 20b GGUF

由DavidAU開發

基於Psyonic-Cetacean-20B的32位浮點精度全面升級版本，通過最小化精度損失顯著提升模型性能

大型語言模型英語開源協議:Apache-2.0 #FP32高精度生成 #量化性能超越原版 #創意寫作增強

下載量 560

發布時間 : 5/28/2024

模型概述

該模型是原版Psyonic-Cetacean-20B的高精度重製版本，通過全程採用FP32精度處理，顯著降低了量化過程中的精度損失，在指令跟隨、文本生成質量和細節表現等方面均有突破性提升。

模型特點

全FP32精度處理

所有組件和合並模型均以32位浮點精度重製，最大限度減少量化過程中的精度損失

顯著降低困惑度

各量化版本困惑度降低234-976點，Q6版本性能甚至超越原版全精度模型

湧現新能力

指令跟隨能力顯著提升，模型展現出原版不具備的新能力

多量化版本支持

提供Q2K/Q4KM/Q6/Q8等多種量化版本，滿足不同硬件條件下的性能需求

模型能力

高質量文本生成

創意寫作

故事創作

小說續寫

角色扮演對話生成

複雜指令跟隨

使用案例

創意寫作

科幻小說創作

生成具有豐富細節和連貫世界觀的科幻故事

太空鯨等科幻元素的深度描寫能力顯著提升

交互式應用

角色扮演聊天

在Silly Tavern等平臺實現高質量的角色扮演對話

對話流暢度和角色一致性明顯改善

🚀 超高畫質重製版：Psyonic - Cetacean - 20b

這是一款令人驚歎的超高畫質重製版模型。它將原有的 Psyonic - Cetacean - 20b 模型進行了全面升級，解決了模型在合併和壓縮過程中的精度損失問題，顯著提升了模型的性能和質量，為文本生成任務帶來了更出色的表現。

✨ 主要特性

浮點32位升級：所有組件和合並操作都被重製為浮點32位，包括所有合併（使用主文件重新創建），並儘可能替換為完整的FP32模型。
高精度保留：在模型處理的每個步驟都儘可能保留最大精度，直至“GUFF”處理階段。
性能顯著提升：在不同量化級別下，困惑度大幅下降，模型性能得到顯著提升。
功能增強：指令遵循能力顯著提高，出現新能力，散文質量、細微差別和深度均有改善，原模型的已知問題消失。
靈活設置：可通過調整“平滑因子”“重複懲罰”等參數，實現不同場景下的最佳性能。

📦 安裝指南

文檔未提及具體安裝步驟，可參考以下通用方式：

確保你已經安裝了合適的運行環境，如 KoboldCpp、oobabooga/text - generation - webui 或 Silly Tavern。
從指定的源版本下載模型及其配置文件：[https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be](https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be)

💻 使用示例

基礎用法

在 KoboldCpp、oobabooga/text - generation - webui 或 Silly Tavern 中使用該模型進行文本生成。

高級用法

設置平滑因子

在不同工具中設置“平滑因子”以優化模型表現：

在 KoboldCpp 中：Settings -> Samplers -> Advanced -> "Smooth_F"，設置為 1.5 到 2.5。
在 text - generation - webui 中：在參數設置的右下角進行設置。
在 Silly Tavern 中：設置“平滑”參數為 1.5 到 2.5。

其他參數調整

增加重複懲罰（rep pen）到 1.1 到 1.15（如果使用“平滑因子”則無需此操作）。
如果運行AI模型的界面/程序支持“二次採樣”（“平滑”），按說明進行調整。

📚 詳細文檔

最高質量設置/最佳操作指南/參數和採樣器

這是一個“2類”模型。有關該模型使用的所有設置（包括其“類”的具體設置）、示例生成以及高級設置指南（多次解決任何模型問題），包括提高所有用例（包括聊天、角色扮演等）模型性能的方法，請參閱：[https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters](https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters)

後續計劃

本倉庫之後將推出“常規量化加”倉庫，在GGUF（所有級別）中添加額外組件，以進一步提高創造力和AI能力。
隨後將推出完整的浮點32位精度Imatrix（包括常規量化的“imatrixed”）。
Imatrix Plus倉庫（在“常規量化加”中具有相同的浮點32位增強）將進一步突破極限。Imatrix倉庫地址：[https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix](https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix)

🔧 技術細節

高精度重製原理

浮點32位升級：將模型的所有組件和合並操作重製為浮點32位，以保留最大精度。這包括使用主文件重新創建所有合併，並儘可能替換為完整的FP32模型。
減少精度損失：在模型處理的每個步驟都儘可能保留最大精度，直至“GUFF”處理階段。由於F32與BF16之間的差異超過8位小數，而每次合併和模型修改都會導致“損失”，這些損失會累積並影響模型性能。通過浮點32位升級，可以減少這些損失。
性能提升驗證：在不同量化級別下，模型的困惑度顯著下降，證明了高精度重製的有效性。例如，在Q2K、Q4KM和Q6量化級別下，困惑度分別下降了533、976和234點。

模型大小

GGUF的F32主文件大小高達78GB（相比20B模型平均38GB）。

性能對比

量化級別	原模型困惑度	重製後模型困惑度	困惑度下降點數
Q2K	9.8077 +/- 0.06821	-	533
Q4KM	8.7858 +/- 0.06074	-	976
Q6	8.6070 +/- 0.05907	-	234
Q8	8.6012 +/- 0.05900	8.5850 +/- 0.05881	150

📄 許可證

本項目採用 Apache - 2.0 許可證。

⚠️ 重要提示

對於 text - generation - webui，如果使用GGUFs，需要使用 llama_HF（這涉及從該模型的源版本下載一些配置文件）。

💡 使用建議

可將“平滑因子”設置為 1.5 到 2.5 以優化模型在聊天、角色扮演等場景下的性能。

可根據需要增加重複懲罰到 1.1 到 1.15，但如果使用“平滑因子”則無需此操作。

如果運行AI模型的界面/程序支持“二次採樣”（“平滑”），可按說明進行調整。