NeuralDaredevil-8B-abliterated-GGUF开源模型 - 多量化类型适配不同硬件需求

首页

Neuraldaredevil 8B Abliterated GGUF

由 bartowski 开发

这是对NeuralDaredevil-8B-abliterated模型进行量化处理的版本，提供了多种量化类型的模型文件，适用于不同硬件条件和需求的用户。

大型语言模型开源协议:其他 #多级量化选择 #低显存优化 #高精度对话

下载量 577

发布时间 : 6/5/2024

模型简介

该模型是基于NeuralDaredevil-8B-abliterated的量化版本，提供从高到低不同质量和大小的量化模型文件，方便用户根据硬件条件选择适合的版本。

模型特点

多种量化类型

提供了从高到低不同质量和大小的量化模型文件，如Q8_0、Q6_K、Q5_K_M等，满足不同用户的需求。

特定数据集量化

所有量化模型均使用`imatrix`选项，并使用了特定数据集进行量化。

明确的提示格式

提供了清晰的提示格式，方便用户使用。

模型能力

文本生成

多语言支持

使用案例

文本生成

对话系统

可用于构建对话系统，生成自然语言响应。

内容创作

可用于生成文章、故事等内容。

🚀 NeuralDaredevil-8B-abliterated量化模型

本项目是对NeuralDaredevil-8B-abliterated模型进行量化处理，提供了多种量化类型的模型文件，方便不同硬件条件和需求的用户使用。

🚀 快速开始

安装依赖

首先，确保你已经安装了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下载模型文件

你可以根据自己的需求选择下载特定的模型文件，而不是整个分支。以下是一些下载示例：

下载单个文件：

huggingface-cli download bartowski/NeuralDaredevil-8B-abliterated-GGUF --include "NeuralDaredevil-8B-abliterated-Q4_K_M.gguf" --local-dir ./

如果模型文件大于50GB，它会被拆分成多个文件。要将它们全部下载到本地文件夹，可以运行：

huggingface-cli download bartowski/NeuralDaredevil-8B-abliterated-GGUF --include "NeuralDaredevil-8B-abliterated-Q8_0.gguf/*" --local-dir NeuralDaredevil-8B-abliterated-Q8_0

你可以指定一个新的本地目录（如NeuralDaredevil-8B-abliterated-Q8_0），也可以将它们全部下载到当前目录（./）。

✨ 主要特性

多种量化类型：提供了从高到低不同质量和大小的量化模型文件，如Q8_0、Q6_K、Q5_K_M等，满足不同用户的需求。
特定数据集量化：所有量化模型均使用imatrix选项，并使用了特定数据集进行量化。
明确的提示格式：提供了清晰的提示格式，方便用户使用。

📦 安装指南

安装依赖：

pip install -U "huggingface_hub[cli]"

💻 使用示例

基础用法

下载模型文件：

huggingface-cli download bartowski/NeuralDaredevil-8B-abliterated-GGUF --include "NeuralDaredevil-8B-abliterated-Q4_K_M.gguf" --local-dir ./

高级用法

下载拆分的大模型文件：

huggingface-cli download bartowski/NeuralDaredevil-8B-abliterated-GGUF --include "NeuralDaredevil-8B-abliterated-Q8_0.gguf/*" --local-dir NeuralDaredevil-8B-abliterated-Q8_0

📚 详细文档

模型信息

属性	详情
模型类型	基于`NeuralDaredevil-8B-abliterated`的量化模型
训练数据	`mlabonne/orpo-dpo-mix-40k`

提示格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

下载文件选择

文件名	量化类型	文件大小	描述
NeuralDaredevil-8B-abliterated-Q8_0.gguf	Q8_0	8.54GB	极高质量，通常不需要，但为最大可用量化类型。
NeuralDaredevil-8B-abliterated-Q6_K.gguf	Q6_K	6.59GB	非常高质量，接近完美，推荐。
NeuralDaredevil-8B-abliterated-Q5_K_M.gguf	Q5_K_M	5.73GB	高质量，推荐。
NeuralDaredevil-8B-abliterated-Q5_K_S.gguf	Q5_K_S	5.59GB	高质量，推荐。
NeuralDaredevil-8B-abliterated-Q4_K_M.gguf	Q4_K_M	4.92GB	良好质量，每个权重约使用4.83位，推荐。
NeuralDaredevil-8B-abliterated-Q4_K_S.gguf	Q4_K_S	4.69GB	质量稍低，但节省更多空间，推荐。
NeuralDaredevil-8B-abliterated-IQ4_XS.gguf	IQ4_XS	4.44GB	质量尚可，比Q4_K_S小，性能相似，推荐。
NeuralDaredevil-8B-abliterated-Q3_K_L.gguf	Q3_K_L	4.32GB	质量较低但可用，适合低内存情况。
NeuralDaredevil-8B-abliterated-Q3_K_M.gguf	Q3_K_M	4.01GB	质量更低。
NeuralDaredevil-8B-abliterated-IQ3_M.gguf	IQ3_M	3.78GB	中低质量，新方法，性能与Q3_K_M相当。
NeuralDaredevil-8B-abliterated-Q3_K_S.gguf	Q3_K_S	3.66GB	低质量，不推荐。
NeuralDaredevil-8B-abliterated-IQ3_XS.gguf	IQ3_XS	3.51GB	质量较低，新方法，性能尚可，略优于Q3_K_S。
NeuralDaredevil-8B-abliterated-IQ3_XXS.gguf	IQ3_XXS	3.27GB	质量较低，新方法，性能与Q3量化类型相当。
NeuralDaredevil-8B-abliterated-Q2_K.gguf	Q2_K	3.17GB	极低质量，但出人意料地可用。
NeuralDaredevil-8B-abliterated-IQ2_M.gguf	IQ2_M	2.94GB	极低质量，使用了最先进的技术，出人意料地可用。
NeuralDaredevil-8B-abliterated-IQ2_S.gguf	IQ2_S	2.75GB	极低质量，使用了最先进的技术，可用。
NeuralDaredevil-8B-abliterated-IQ2_XS.gguf	IQ2_XS	2.60GB	极低质量，使用了最先进的技术，可用。

模型选择建议

首先，确定你可以运行的模型大小。这需要你了解自己的系统内存（RAM）和/或显卡显存（VRAM）。

如果你希望模型运行速度尽可能快，应选择文件大小比你的显卡显存小1 - 2GB的量化模型，以便将整个模型放入显卡显存中。
如果你追求绝对的最高质量，可以将系统内存和显卡显存相加，然后选择文件大小比该总和小1 - 2GB的量化模型。

接下来，你需要决定是否使用“I - 量化”或“K - 量化”：

如果你不想考虑太多，选择K - 量化模型，格式为QX_K_X，如Q5_K_M。
如果你想深入了解，可以查看llama.cpp feature matrix。一般来说，如果你目标是低于Q4的量化，并且使用cuBLAS（Nvidia）或rocBLAS（AMD），可以考虑I - 量化模型，格式为IQX_X，如IQ3_M。这些模型较新，相同大小下性能更好。

I - 量化模型也可以在CPU和Apple Metal上使用，但速度会比K - 量化模型慢。此外，I - 量化模型与Vulcan（AMD）不兼容，如果你使用AMD显卡，请确认使用的是rocBLAS版本还是Vulcan版本。