模型简介
模型特点
模型能力
使用案例
🚀 writing-roleplay-20k-context-nemo-12b-v1.0的Llamacpp imatrix量化版本
本项目提供了writing-roleplay-20k-context-nemo-12b-v1.0模型的量化版本,使用特定工具和数据集进行量化,方便不同硬件条件下的使用。
🚀 快速开始
本项目使用 llama.cpp 的 b3901 版本进行量化。 原始模型地址:https://huggingface.co/openerotica/writing-roleplay-20k-context-nemo-12b-v1.0 所有量化版本均使用imatrix选项,并采用来自 此处 的数据集。 你可以在 LM Studio 中运行这些量化模型。
✨ 主要特性
提示格式
未找到提示格式,请查看原始模型页面。
量化文件选择
提供了多种量化类型的文件供选择,每种文件在质量、大小和性能上有所不同,可根据自身硬件条件(如RAM、VRAM)和需求进行选择。
嵌入/输出权重
部分量化版本(如Q3_K_XL、Q4_K_L等)采用了特殊的量化方法,将嵌入和输出权重量化为Q8_0,而非默认值。有人认为这能提高质量,也有人认为无明显差异,欢迎使用这些模型的用户分享使用反馈。
ARM芯片优化
Q4_0_X_X量化版本专为ARM芯片优化,在ARM芯片上使用可显著提升速度。可参考 AArch64 SoC特性 来选择适合自己ARM芯片的量化版本。
📦 安装指南
安装huggingface-cli
首先,确保你已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
下载特定文件
你可以指定下载特定的文件,例如:
huggingface-cli download bartowski/writing-roleplay-20k-context-nemo-12b-v1.0-GGUF --include "writing-roleplay-20k-context-nemo-12b-v1.0-Q4_K_M.gguf" --local-dir ./
下载拆分文件
如果模型大于50GB,会被拆分为多个文件。若要将所有拆分文件下载到本地文件夹,可运行:
huggingface-cli download bartowski/writing-roleplay-20k-context-nemo-12b-v1.0-GGUF --include "writing-roleplay-20k-context-nemo-12b-v1.0-Q8_0/*" --local-dir ./
你可以指定新的本地目录,也可以将文件下载到当前目录(./)。
💻 使用示例
基础用法
在LM Studio中运行量化模型,可直接加载对应的量化文件。
高级用法
根据自身硬件条件和需求选择合适的量化文件。例如,若想让模型尽可能快地运行,应选择文件大小比GPU总VRAM小1 - 2GB的量化版本;若追求最高质量,可将系统RAM和GPU的VRAM相加,选择比该总和小1 - 2GB的量化版本。
📚 详细文档
量化文件列表
选择合适的文件
可参考Artefact2提供的 详细分析 ,其中包含各种性能图表。
选择文件时,首先要确定自己能运行多大的模型,这需要了解自己的RAM和/或VRAM容量。 若追求最快运行速度,应选择文件大小比GPU总VRAM小1 - 2GB的量化版本;若追求最高质量,可将系统RAM和GPU的VRAM相加,选择比该总和小1 - 2GB的量化版本。
此外,还需决定使用'I-quant'还是'K-quant'。若不想过多思考,可选择K-quant,格式为'QX_K_X',如Q5_K_M;若想深入了解,可查看 llama.cpp特性矩阵 。一般来说,若目标是低于Q4的量化,且使用cuBLAS(Nvidia)或rocBLAS(AMD),可考虑I-quant,格式为IQX_X,如IQ3_M,这些较新的量化方法在相同大小下性能更好。
需注意,I-quant与Vulcan不兼容(Vulcan也是AMD的),若使用AMD显卡,需确认使用的是rocBLAS版本还是Vulcan版本。目前,LM Studio有支持ROCm的预览版,其他推理引擎也有针对ROCm的特定版本。
🔧 技术细节
Q4_0_X_X量化版本
这些量化版本 不 适用于Metal(Apple)卸载,仅适用于ARM芯片。在ARM芯片上使用Q4_0_X_X量化版本可显著提升速度,可查看 原始拉取请求 中的Q4_0_4_4速度比较。
若要确定哪个量化版本最适合自己的ARM芯片,可查看 AArch64 SoC特性 (感谢EloyOn!)。
嵌入/输出权重量化
部分量化版本(如Q3_K_XL、Q4_K_L等)采用了特殊的量化方法,将嵌入和输出权重量化为Q8_0,而非默认值。有人认为这能提高质量,也有人认为无明显差异,欢迎使用这些模型的用户分享使用反馈。
📄 许可证
文档未提及许可证相关信息。
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。 感谢ZeroWw提供关于嵌入/输出实验的灵感。
如果你想支持作者的工作,可访问 ko-fi页面 。



