🚀 QwenStoryteller量化模型项目
本项目提供了QwenStoryteller模型的量化版本,方便用户在不同场景下高效使用该模型。通过量化处理,模型在保持一定性能的同时,能减少存储空间和计算资源的需求。
📚 详细文档
基本信息
属性 |
详情 |
基础模型 |
daniel3303/QwenStoryteller |
数据集 |
daniel3303/StoryReasoning |
语言 |
英文 |
库名称 |
transformers |
许可证 |
apache - 2.0 |
量化者 |
mradermacher |
标签 |
视觉语言模型、视觉故事讲述、思维链、基于文本生成、跨帧一致性、故事讲述、图像转文本 |
关于模型
加权/矩阵量化版本来自于 https://huggingface.co/daniel3303/QwenStoryteller。静态量化版本可在 https://huggingface.co/mradermacher/QwenStoryteller - GGUF 获取。
使用说明
如果您不确定如何使用GGUF文件,请参考 TheBloke的README 以获取更多详细信息,包括如何拼接多部分文件。
提供的量化版本
(按大小排序,不一定代表质量。IQ量化通常优于类似大小的非IQ量化)
链接 |
类型 |
大小(GB) |
说明 |
GGUF |
i1 - IQ1_S |
2.0 |
适用于资源极度紧张的情况 |
GGUF |
i1 - IQ1_M |
2.1 |
多数情况下用于资源紧张场景 |
GGUF |
i1 - IQ2_XXS |
2.4 |
|
GGUF |
i1 - IQ2_XS |
2.6 |
|
GGUF |
i1 - IQ2_S |
2.7 |
|
GGUF |
i1 - IQ2_M |
2.9 |
|
GGUF |
i1 - Q2_K_S |
2.9 |
质量非常低 |
GGUF |
i1 - Q2_K |
3.1 |
IQ3_XXS可能更好 |
GGUF |
i1 - IQ3_XXS |
3.2 |
质量较低 |
GGUF |
i1 - IQ3_XS |
3.4 |
|
GGUF |
i1 - Q3_K_S |
3.6 |
IQ3_XS可能更好 |
GGUF |
i1 - IQ3_S |
3.6 |
优于Q3_K* |
GGUF |
i1 - IQ3_M |
3.7 |
|
GGUF |
i1 - Q3_K_M |
3.9 |
IQ3_S可能更好 |
GGUF |
i1 - Q3_K_L |
4.2 |
IQ3_M可能更好 |
GGUF |
i1 - IQ4_XS |
4.3 |
|
GGUF |
i1 - IQ4_NL |
4.5 |
优先选择IQ4_XS |
GGUF |
i1 - Q4_0 |
4.5 |
速度快,质量低 |
GGUF |
i1 - Q4_K_S |
4.6 |
大小/速度/质量最优 |
GGUF |
i1 - Q4_K_M |
4.8 |
速度快,推荐使用 |
GGUF |
i1 - Q4_1 |
5.0 |
|
GGUF |
i1 - Q5_K_S |
5.4 |
|
GGUF |
i1 - Q5_K_M |
5.5 |
|
GGUF |
i1 - Q6_K |
6.4 |
实际上类似于静态Q6_K |
ikawrakow提供了一个方便的图表,用于比较一些低质量量化类型(数值越低越好):

此外,Artefact2对此也有相关看法:https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9
常见问题解答/模型请求
有关常见问题的解答,以及如果您希望对其他模型进行量化,请参考 https://huggingface.co/mradermacher/model_requests。
致谢
感谢我的公司 nethype GmbH,允许我使用其服务器,并对我的工作站进行升级,使我能够在业余时间完成这项工作。此外,感谢 @nicoboss 让我使用他的私人超级计算机,使我能够提供更多、质量更高的矩阵量化版本。
📄 许可证
本项目采用apache - 2.0许可证。