Psyonic-Cetacean-Ultra-Quality-20b-GGUF开源模型

首页

Psyonic Cetacean Ultra Quality 20b GGUF

由 DavidAU 开发

基于Psyonic-Cetacean-20B的32位浮点精度全面升级版本，通过最小化精度损失显著提升模型性能

大型语言模型英语开源协议:Apache-2.0 #FP32高精度生成 #量化性能超越原版 #创意写作增强

下载量 560

发布时间 : 5/28/2024

模型简介

该模型是原版Psyonic-Cetacean-20B的高精度重制版本，通过全程采用FP32精度处理，显著降低了量化过程中的精度损失，在指令跟随、文本生成质量和细节表现等方面均有突破性提升。

模型特点

全FP32精度处理

所有组件和合并模型均以32位浮点精度重制，最大限度减少量化过程中的精度损失

显著降低困惑度

各量化版本困惑度降低234-976点，Q6版本性能甚至超越原版全精度模型

涌现新能力

指令跟随能力显著提升，模型展现出原版不具备的新能力

多量化版本支持

提供Q2K/Q4KM/Q6/Q8等多种量化版本，满足不同硬件条件下的性能需求

模型能力

高质量文本生成

创意写作

故事创作

小说续写

角色扮演对话生成

复杂指令跟随

使用案例

创意写作

科幻小说创作

生成具有丰富细节和连贯世界观的科幻故事

太空鲸等科幻元素的深度描写能力显著提升

交互式应用

角色扮演聊天

在Silly Tavern等平台实现高质量的角色扮演对话

对话流畅度和角色一致性明显改善

🚀 超高画质重制版：Psyonic - Cetacean - 20b

这是一款令人惊叹的超高画质重制版模型。它将原有的 Psyonic - Cetacean - 20b 模型进行了全面升级，解决了模型在合并和压缩过程中的精度损失问题，显著提升了模型的性能和质量，为文本生成任务带来了更出色的表现。

✨ 主要特性

浮点32位升级：所有组件和合并操作都被重制为浮点32位，包括所有合并（使用主文件重新创建），并尽可能替换为完整的FP32模型。
高精度保留：在模型处理的每个步骤都尽可能保留最大精度，直至“GUFF”处理阶段。
性能显著提升：在不同量化级别下，困惑度大幅下降，模型性能得到显著提升。
功能增强：指令遵循能力显著提高，出现新能力，散文质量、细微差别和深度均有改善，原模型的已知问题消失。
灵活设置：可通过调整“平滑因子”“重复惩罚”等参数，实现不同场景下的最佳性能。

📦 安装指南

文档未提及具体安装步骤，可参考以下通用方式：

确保你已经安装了合适的运行环境，如 KoboldCpp、oobabooga/text - generation - webui 或 Silly Tavern。
从指定的源版本下载模型及其配置文件：[https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be](https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be)

💻 使用示例

基础用法

在 KoboldCpp、oobabooga/text - generation - webui 或 Silly Tavern 中使用该模型进行文本生成。

高级用法

设置平滑因子

在不同工具中设置“平滑因子”以优化模型表现：

在 KoboldCpp 中：Settings -> Samplers -> Advanced -> "Smooth_F"，设置为 1.5 到 2.5。
在 text - generation - webui 中：在参数设置的右下角进行设置。
在 Silly Tavern 中：设置“平滑”参数为 1.5 到 2.5。

其他参数调整

增加重复惩罚（rep pen）到 1.1 到 1.15（如果使用“平滑因子”则无需此操作）。
如果运行AI模型的界面/程序支持“二次采样”（“平滑”），按说明进行调整。

📚 详细文档

最高质量设置/最佳操作指南/参数和采样器

这是一个“2类”模型。有关该模型使用的所有设置（包括其“类”的具体设置）、示例生成以及高级设置指南（多次解决任何模型问题），包括提高所有用例（包括聊天、角色扮演等）模型性能的方法，请参阅：[https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters](https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters)

后续计划

本仓库之后将推出“常规量化加”仓库，在GGUF（所有级别）中添加额外组件，以进一步提高创造力和AI能力。
随后将推出完整的浮点32位精度Imatrix（包括常规量化的“imatrixed”）。
Imatrix Plus仓库（在“常规量化加”中具有相同的浮点32位增强）将进一步突破极限。Imatrix仓库地址：[https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix](https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix)

🔧 技术细节

高精度重制原理

浮点32位升级：将模型的所有组件和合并操作重制为浮点32位，以保留最大精度。这包括使用主文件重新创建所有合并，并尽可能替换为完整的FP32模型。
减少精度损失：在模型处理的每个步骤都尽可能保留最大精度，直至“GUFF”处理阶段。由于F32与BF16之间的差异超过8位小数，而每次合并和模型修改都会导致“损失”，这些损失会累积并影响模型性能。通过浮点32位升级，可以减少这些损失。
性能提升验证：在不同量化级别下，模型的困惑度显著下降，证明了高精度重制的有效性。例如，在Q2K、Q4KM和Q6量化级别下，困惑度分别下降了533、976和234点。

模型大小

GGUF的F32主文件大小高达78GB（相比20B模型平均38GB）。

性能对比

量化级别	原模型困惑度	重制后模型困惑度	困惑度下降点数
Q2K	9.8077 +/- 0.06821	-	533
Q4KM	8.7858 +/- 0.06074	-	976
Q6	8.6070 +/- 0.05907	-	234
Q8	8.6012 +/- 0.05900	8.5850 +/- 0.05881	150

📄 许可证

本项目采用 Apache - 2.0 许可证。

⚠️ 重要提示

对于 text - generation - webui，如果使用GGUFs，需要使用 llama_HF（这涉及从该模型的源版本下载一些配置文件）。

💡 使用建议

可将“平滑因子”设置为 1.5 到 2.5 以优化模型在聊天、角色扮演等场景下的性能。

可根据需要增加重复惩罚到 1.1 到 1.15，但如果使用“平滑因子”则无需此操作。

如果运行AI模型的界面/程序支持“二次采样”（“平滑”），可按说明进行调整。