Gemma-2-2b-it-abliterated开源语言模型 - 免费部署助力文本生成任务

首页

Gemma 2 2b It Abliterated GGUF

由 bartowski 开发

Gemma-2-2b-it-abliterated是一个基于Google Gemma架构的2.2B参数语言模型，经过量化处理，适用于文本生成任务。

大型语言模型英语#轻量级文本生成 #多量化版本选择 #英语对话优化

下载量 10.55k

发布时间 : 8/1/2024

模型简介

这是一个经过量化的文本生成模型，基于Google的Gemma架构，适用于英语文本生成任务。

模型特点

多种量化版本

提供从F32到Q2_K_L的多种量化版本，满足不同硬件需求。

高质量量化

使用imatrix选项进行量化，并使用特定数据集进行校准，保证量化质量。

嵌入/输出权重优化

部分量化版本中嵌入和输出权重被量化为Q8_0，可能提升生成质量。

模型能力

英语文本生成

对话生成

内容创作

使用案例

文本生成

对话系统

用于构建英语对话系统，生成自然流畅的回复。

内容创作

辅助生成英语文章、故事等内容。

🚀 gemma-2-2b-it-abliterated的Llamacpp imatrix量化版本

本项目使用 llama.cpp 的 b3496 版本进行量化。旨在为gemma-2-2b-it-abliterated模型提供高效的量化方案，以满足不同场景下的使用需求。

项目信息

属性	详情
基础模型	IlyaGusev/gemma-2-2b-it-abliterated
语言	英文
许可证	gemma
任务类型	文本生成
量化者	bartowski

原模型链接

https://huggingface.co/IlyaGusev/gemma-2-2b-it-abliterated

量化说明

所有量化均使用imatrix选项，并采用来自此处的数据集。可在 LM Studio 中运行这些量化模型。

🚀 快速开始

提示词格式

<bos><start_of_turn>user
{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model

⚠️ 重要提示

该模型不支持系统提示词。

下载文件

可从下方表格中选择并下载单个文件（非整个分支）：

文件名	量化类型	文件大小	拆分情况	描述
gemma-2-2b-it-abliterated-f32.gguf	f32	10.46GB	否	完整的F32权重。
gemma-2-2b-it-abliterated-Q8_0.gguf	Q8_0	2.78GB	否	极高质量，通常无需使用，但为最大可用量化。
gemma-2-2b-it-abliterated-Q6_K_L.gguf	Q6_K_L	2.29GB	否	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
gemma-2-2b-it-abliterated-Q5_K_L.gguf	Q5_K_L	2.07GB	否	嵌入和输出权重使用Q8_0。高质量，推荐。
gemma-2-2b-it-abliterated-Q5_K_M.gguf	Q5_K_M	1.92GB	否	高质量，推荐。
gemma-2-2b-it-abliterated-Q5_K_S.gguf	Q5_K_S	1.88GB	否	高质量，推荐。
gemma-2-2b-it-abliterated-Q4_K_L.gguf	Q4_K_L	1.85GB	否	嵌入和输出权重使用Q8_0。良好质量，推荐。
gemma-2-2b-it-abliterated-Q4_K_M.gguf	Q4_K_M	1.71GB	否	良好质量，大多数用例的默认大小，推荐。
gemma-2-2b-it-abliterated-Q3_K_XL.gguf	Q3_K_XL	1.69GB	否	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存场景。
gemma-2-2b-it-abliterated-Q4_K_S.gguf	Q4_K_S	1.64GB	否	质量略低但节省空间，推荐。
gemma-2-2b-it-abliterated-IQ4_XS.gguf	IQ4_XS	1.57GB	否	质量尚可，比Q4_K_S更小且性能相似，推荐。
gemma-2-2b-it-abliterated-Q3_K_L.gguf	Q3_K_L	1.55GB	否	质量较低但可用，适合低内存场景。
gemma-2-2b-it-abliterated-IQ3_M.gguf	IQ3_M	1.39GB	否	中低质量，新方法，性能与Q3_K_M相当。
gemma-2-2b-it-abliterated-Q2_K_L.gguf	Q2_K_L	1.37GB	否	嵌入和输出权重使用Q8_0。质量极低但意外可用。

嵌入/输出权重说明

部分量化模型（如Q3_K_XL、Q4_K_L等）采用标准量化方法，将嵌入和输出权重量化为Q8_0，而非默认值。有人认为这可提高质量，也有人未察觉差异。若你使用了这些模型，请留言分享你的发现，以便了解这些量化模型是否真正有用。

致谢

感谢kalomaze和Dampf协助创建imatrix校准数据集。感谢ZeroWw启发了对嵌入/输出的实验。

📦 安装指南

使用huggingface-cli下载

首先，确保已安装huggingface-cli：

pip install -U "huggingface_hub[cli]"

然后，可指定要下载的特定文件：

huggingface-cli download bartowski/gemma-2-2b-it-abliterated-GGUF --include "gemma-2-2b-it-abliterated-Q4_K_M.gguf" --local-dir ./

若模型文件大于50GB，可能已拆分为多个文件。要将所有文件下载到本地文件夹，可运行：

huggingface-cli download bartowski/gemma-2-2b-it-abliterated-GGUF --include "gemma-2-2b-it-abliterated-Q8_0/*" --local-dir ./

你可以指定新的本地目录（如gemma-2-2b-it-abliterated-Q8_0），也可将所有文件下载到当前目录（./）。

📚 详细文档

如何选择文件

Artefact2 提供了一篇很棒的文章，并配有图表展示各种性能，可参考此处。选择文件时，首先要确定你能运行多大的模型，这需要了解你的系统内存（RAM）和/或显存（VRAM）大小。

若希望模型运行速度尽可能快，应选择文件大小比GPU显存小1 - 2GB的量化模型，以便将整个模型加载到GPU的显存中。
若追求极致质量，可将系统内存和GPU显存相加，然后选择文件大小比该总和小1 - 2GB的量化模型。

接下来，需要决定使用“I量化”还是“K量化”：

若不想过多考虑，可选择K量化模型，其格式为 'QX_K_X'，如Q5_K_M。
若想深入了解，可查看 llama.cpp特性矩阵。一般来说，若目标量化级别低于Q4，且使用cuBLAS（Nvidia）或rocBLAS（AMD），可考虑I量化模型，其格式为IQX_X，如IQ3_M。这些I量化模型较新，在相同大小下性能更好。

不过，I量化模型在CPU和Apple Metal上运行速度可能比K量化模型慢，因此需要在速度和性能之间进行权衡。此外，I量化模型与Vulcan（同样适用于AMD）不兼容，若使用AMD显卡，请确认使用的是rocBLAS版本还是Vulcan版本。截至编写本文时，LM Studio有支持ROCm的预览版，其他推理引擎也有针对ROCm的特定版本。