🚀 超高画质重制版:Psyonic - Cetacean - 20b
这是一款令人惊叹的超高画质重制版模型。它将原有的 Psyonic - Cetacean - 20b 模型进行了全面升级,解决了模型在合并和压缩过程中的精度损失问题,显著提升了模型的性能和质量,为文本生成任务带来了更出色的表现。
✨ 主要特性
- 浮点32位升级:所有组件和合并操作都被重制为浮点32位,包括所有合并(使用主文件重新创建),并尽可能替换为完整的FP32模型。
- 高精度保留:在模型处理的每个步骤都尽可能保留最大精度,直至“GUFF”处理阶段。
- 性能显著提升:在不同量化级别下,困惑度大幅下降,模型性能得到显著提升。
- 功能增强:指令遵循能力显著提高,出现新能力,散文质量、细微差别和深度均有改善,原模型的已知问题消失。
- 灵活设置:可通过调整“平滑因子”“重复惩罚”等参数,实现不同场景下的最佳性能。
📦 安装指南
文档未提及具体安装步骤,可参考以下通用方式:
- 确保你已经安装了合适的运行环境,如
KoboldCpp
、oobabooga/text - generation - webui
或 Silly Tavern
。
- 从指定的源版本下载模型及其配置文件:[https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be](https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be)
💻 使用示例
基础用法
在 KoboldCpp
、oobabooga/text - generation - webui
或 Silly Tavern
中使用该模型进行文本生成。
高级用法
设置平滑因子
在不同工具中设置“平滑因子”以优化模型表现:
- 在
KoboldCpp
中:Settings -> Samplers -> Advanced -> "Smooth_F"
,设置为 1.5 到 2.5。
- 在
text - generation - webui
中:在参数设置的右下角进行设置。
- 在
Silly Tavern
中:设置“平滑”参数为 1.5 到 2.5。
其他参数调整
- 增加重复惩罚(rep pen)到 1.1 到 1.15(如果使用“平滑因子”则无需此操作)。
- 如果运行AI模型的界面/程序支持“二次采样”(“平滑”),按说明进行调整。
📚 详细文档
最高质量设置/最佳操作指南/参数和采样器
这是一个“2类”模型。有关该模型使用的所有设置(包括其“类”的具体设置)、示例生成以及高级设置指南(多次解决任何模型问题),包括提高所有用例(包括聊天、角色扮演等)模型性能的方法,请参阅:[https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters](https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters)
后续计划
- 本仓库之后将推出“常规量化加”仓库,在GGUF(所有级别)中添加额外组件,以进一步提高创造力和AI能力。
- 随后将推出完整的浮点32位精度Imatrix(包括常规量化的“imatrixed”)。
- Imatrix Plus仓库(在“常规量化加”中具有相同的浮点32位增强)将进一步突破极限。Imatrix仓库地址:[https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix](https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix)
🔧 技术细节
高精度重制原理
- 浮点32位升级:将模型的所有组件和合并操作重制为浮点32位,以保留最大精度。这包括使用主文件重新创建所有合并,并尽可能替换为完整的FP32模型。
- 减少精度损失:在模型处理的每个步骤都尽可能保留最大精度,直至“GUFF”处理阶段。由于F32与BF16之间的差异超过8位小数,而每次合并和模型修改都会导致“损失”,这些损失会累积并影响模型性能。通过浮点32位升级,可以减少这些损失。
- 性能提升验证:在不同量化级别下,模型的困惑度显著下降,证明了高精度重制的有效性。例如,在Q2K、Q4KM和Q6量化级别下,困惑度分别下降了533、976和234点。
模型大小
GGUF的F32主文件大小高达78GB(相比20B模型平均38GB)。
性能对比
量化级别 |
原模型困惑度 |
重制后模型困惑度 |
困惑度下降点数 |
Q2K |
9.8077 +/- 0.06821 |
- |
533 |
Q4KM |
8.7858 +/- 0.06074 |
- |
976 |
Q6 |
8.6070 +/- 0.05907 |
- |
234 |
Q8 |
8.6012 +/- 0.05900 |
8.5850 +/- 0.05881 |
150 |
📄 许可证
本项目采用 Apache - 2.0
许可证。
⚠️ 重要提示
对于 text - generation - webui
,如果使用GGUFs,需要使用 llama_HF
(这涉及从该模型的源版本下载一些配置文件)。
💡 使用建议
- 可将“平滑因子”设置为 1.5 到 2.5 以优化模型在聊天、角色扮演等场景下的性能。
- 可根据需要增加重复惩罚到 1.1 到 1.15,但如果使用“平滑因子”则无需此操作。
- 如果运行AI模型的界面/程序支持“二次采样”(“平滑”),可按说明进行调整。