Gemma 2 9b It Abliterated GGUF
模型简介
这是一个经过量化的Gemma 2.9B模型版本,通过llama.cpp工具进行优化,提供了多种量化选项以适应不同的硬件需求。
模型特点
多种量化选项
提供从F32到Q2_K的多种量化版本,适应不同硬件和性能需求。
优化嵌入和输出权重
部分量化版本使用Q8_0优化嵌入和输出权重,可能提升模型质量。
ARM优化
提供专门针对ARM架构优化的量化版本,支持不同ARM芯片特性。
模型能力
文本生成
对话系统
使用案例
对话系统
智能助手
可用于构建智能对话助手,支持多轮对话。
内容生成
文本创作
可用于生成各种类型的文本内容,如故事、文章等。
🚀 gemma-2-9b-it-abliterated的Llamacpp imatrix量化版本
本项目提供了gemma-2-9b-it-abliterated模型的量化版本,使用特定工具和方法进行量化处理,方便在不同环境下高效运行。
🚀 快速开始
运行环境
可在 LM Studio 中运行这些量化模型。
下载文件
你可以从下方表格中选择需要的文件进行下载(非整个分支):
文件名 | 量化类型 | 文件大小 | 拆分情况 | 描述 |
---|---|---|---|---|
gemma-2-9b-it-abliterated-f32.gguf | f32 | 36.97GB | 否 | 完整的F32权重。 |
gemma-2-9b-it-abliterated-f32.gguf | f32 | 36.97GB | 否 | 完整的F32权重。 |
gemma-2-9b-it-abliterated-Q8_0.gguf | Q8_0 | 9.83GB | 否 | 极高质量,通常不需要,但为最大可用量化。 |
gemma-2-9b-it-abliterated-Q6_K_L.gguf | Q6_K_L | 7.81GB | 否 | 嵌入和输出权重使用Q8_0。非常高质量,近乎完美,推荐。 |
gemma-2-9b-it-abliterated-Q6_K.gguf | Q6_K | 7.59GB | 否 | 非常高质量,近乎完美,推荐。 |
gemma-2-9b-it-abliterated-Q5_K_L.gguf | Q5_K_L | 6.87GB | 否 | 嵌入和输出权重使用Q8_0。高质量,推荐。 |
gemma-2-9b-it-abliterated-Q5_K_M.gguf | Q5_K_M | 6.65GB | 否 | 高质量,推荐。 |
gemma-2-9b-it-abliterated-Q5_K_S.gguf | Q5_K_S | 6.48GB | 否 | 高质量,推荐。 |
gemma-2-9b-it-abliterated-Q4_K_L.gguf | Q4_K_L | 5.98GB | 否 | 嵌入和输出权重使用Q8_0。质量良好,推荐。 |
gemma-2-9b-it-abliterated-Q4_K_M.gguf | Q4_K_M | 5.76GB | 否 | 质量良好,大多数用例的默认大小,推荐。 |
gemma-2-9b-it-abliterated-Q4_K_S.gguf | Q4_K_S | 5.48GB | 否 | 质量稍低,但节省更多空间,推荐。 |
gemma-2-9b-it-abliterated-Q4_0.gguf | Q4_0 | 5.46GB | 否 | 旧格式,提供ARM和AVX推理的在线重新打包。 |
gemma-2-9b-it-abliterated-Q4_0_8_8.gguf | Q4_0_8_8 | 5.44GB | 否 | 针对ARM推理优化。需要'sve'支持(见下方链接)。 |
gemma-2-9b-it-abliterated-Q4_0_4_8.gguf | Q4_0_4_8 | 5.44GB | 否 | 针对ARM推理优化。需要'i8mm'支持(见下方链接)。 |
gemma-2-9b-it-abliterated-Q4_0_4_4.gguf | Q4_0_4_4 | 5.44GB | 否 | 针对ARM推理优化。应该在所有ARM芯片上都能良好工作,如果你不确定,选择这个。 |
gemma-2-9b-it-abliterated-Q3_K_XL.gguf | Q3_K_XL | 5.35GB | 否 | 嵌入和输出权重使用Q8_0。质量较低但可用,适合低内存情况。 |
gemma-2-9b-it-abliterated-IQ4_XS.gguf | IQ4_XS | 5.18GB | 否 | 质量不错,比Q4_K_S小,性能相似,推荐。 |
gemma-2-9b-it-abliterated-Q3_K_L.gguf | Q3_K_L | 5.13GB | 否 | 质量较低但可用,适合低内存情况。 |
gemma-2-9b-it-abliterated-Q3_K_M.gguf | Q3_K_M | 4.76GB | 否 | 低质量。 |
gemma-2-9b-it-abliterated-IQ3_M.gguf | IQ3_M | 4.49GB | 否 | 中低质量,新方法,性能与Q3_K_M相当。 |
gemma-2-9b-it-abliterated-Q3_K_S.gguf | Q3_K_S | 4.34GB | 否 | 低质量,不推荐。 |
gemma-2-9b-it-abliterated-IQ3_XS.gguf | IQ3_XS | 4.14GB | 否 | 质量较低,新方法,性能不错,略优于Q3_K_S。 |
gemma-2-9b-it-abliterated-Q2_K_L.gguf | Q2_K_L | 4.03GB | 否 | 嵌入和输出权重使用Q8_0。质量非常低,但出人意料地可用。 |
gemma-2-9b-it-abliterated-Q2_K.gguf | Q2_K | 3.81GB | 否 | 质量非常低,但出人意料地可用。 |
gemma-2-9b-it-abliterated-IQ2_M.gguf | IQ2_M | 3.43GB | 否 | 质量相对较低,使用最先进技术,出人意料地可用。 |
下载方式
使用huggingface-cli下载
首先,确保你已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后,你可以指定要下载的特定文件:
huggingface-cli download bartowski/gemma-2-9b-it-abliterated-GGUF --include "gemma-2-9b-it-abliterated-Q4_K_M.gguf" --local-dir ./
如果模型大于50GB,它将被拆分为多个文件。要将它们全部下载到本地文件夹,请运行:
huggingface-cli download bartowski/gemma-2-9b-it-abliterated-GGUF --include "gemma-2-9b-it-abliterated-Q8_0/*" --local-dir ./
你可以指定一个新的本地目录(如gemma-2-9b-it-abliterated-Q8_0),或者将它们全部下载到当前目录(./)。
✨ 主要特性
- 多种量化类型:提供了丰富的量化类型,如f32、Q8_0、Q6_K_L等,满足不同的性能和质量需求。
- 特定优化:部分量化版本(如Q3_K_XL、Q4_K_L等)对嵌入和输出权重进行了特殊处理,可能提高模型质量。
- ARM优化:Q4_0_X_X量化版本针对ARM芯片进行了优化,可显著提高推理速度。
📚 详细文档
提示格式
<bos><start_of_turn>system
{system_prompt}<end_of_turn>
<start_of_turn>user
{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model
嵌入/输出权重
部分量化版本(如Q3_K_XL、Q4_K_L等)采用标准量化方法,将嵌入和输出权重量化为Q8_0,而非默认值。有人认为这可以提高质量,也有人认为没有明显差异。如果你使用了这些模型,请分享你的使用结果,以便了解这些量化版本是否真正有用。
Q4_0_X_X量化版本
这些量化版本不适用于Metal(苹果)卸载,仅适用于ARM芯片。如果你使用的是ARM芯片,Q4_0_X_X量化版本将显著提高速度。你可以查看 原始拉取请求 上的Q4_0_4_4速度比较。要检查哪个版本最适合你的ARM芯片,可以查看 AArch64 SoC特性 (感谢EloyOn!)。
如何选择文件
Artefact2提供了一篇很棒的文章,带有展示各种性能的图表,可 点击此处查看。 首先,你需要确定可以运行的模型大小。为此,你需要了解自己的系统内存(RAM)和/或显存(VRAM)容量。
- 追求最快速度:如果你希望模型尽可能快地运行,应将整个模型加载到GPU的显存中。选择文件大小比GPU总显存小1 - 2GB的量化版本。
- 追求最高质量:如果你追求绝对的最高质量,将系统内存和GPU显存相加,然后选择文件大小比该总和小1 - 2GB的量化版本。 接下来,你需要决定是否使用'I-quant'或'K-quant'。
- 不想过多思考:选择K-quant,格式为'QX_K_X',如Q5_K_M。
- 深入了解:你可以查看 llama.cpp特性矩阵。一般来说,如果你希望量化级别低于Q4,并且使用cuBLAS(Nvidia)或rocBLAS(AMD),应考虑I-quant,格式为IQX_X,如IQ3_M。这些是较新的量化方法,在相同大小下提供更好的性能。I-quant也可在CPU和苹果Metal上使用,但速度比K-quant慢,因此你需要在速度和性能之间进行权衡。此外,I-quant与Vulcan(也是AMD)不兼容,如果你使用AMD显卡,请仔细检查使用的是rocBLAS版本还是Vulcan版本。在撰写本文时,LM Studio有一个支持ROCm的预览版,其他推理引擎也有针对ROCm的特定版本。
📄 许可证
本项目使用的模型遵循gemma许可证。
🔗 相关链接
- 原始模型:https://huggingface.co/IlyaGusev/gemma-2-9b-it-abliterated
- llama.cpp仓库:https://github.com/ggerganov/llama.cpp/
- llama.cpp发布版本:https://github.com/ggerganov/llama.cpp/releases/tag/b3878
- 量化数据集:https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8
🙏 致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。 感谢ZeroWw启发对嵌入/输出进行实验。
如果你想支持作者的工作,可以访问 ko-fi页面。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98