granite-3.3-8b-instruct-GGUF开源语言模型 - 内存受限环境也能轻松使用

首页

Granite 3.3 8b Instruct GGUF

由 Mungert 开发

采用IQ-DynamicGate技术的超低位量化(1-2比特)语言模型，适用于内存受限环境

大型语言模型开源协议:Apache-2.0 #超低位量化 #内存高效推理 #边缘计算优化

下载量 759

发布时间 : 4/17/2025

模型简介

该模型是基于granite-3.3-8b-base的指令调优版本，采用创新的IQ-DynamicGate量化技术，在保持极致内存效率的同时优化模型精度。

模型特点

IQ-DynamicGate量化技术

采用精度自适应量化，对不同层采用不同位宽(1-4比特)，在保持内存效率的同时优化模型精度

超低位量化支持

支持1-2比特的极致量化，适合内存受限设备

分层量化策略

对关键组件(如嵌入层)采用更高精度保护，减少误差传播

多格式支持

提供BF16、F16及多种量化格式(Q4_K、Q6_K、Q8_0等)以适应不同硬件

模型能力

文本生成

指令跟随

低内存推理

CPU优化推理

使用案例

边缘计算

移动设备AI助手

在内存有限的移动设备上部署智能助手

1-2比特量化版本可在保持可用性的同时大幅减少内存占用

研究领域

超低位量化研究

研究极端量化条件下的模型行为

提供多种1-3比特量化变体供研究比较

🚀 Granite-3.3-8B-Instruct GGUF模型

Granite-3.3-8B-Instruct GGUF模型是一种经过优化的语言模型，采用了超低比特量化技术，在保持高效内存使用的同时，还能维持较高的准确性。该模型适用于多种场景，包括AI网络监控等领域。

🚀 快速开始

安装依赖库

pip install torch torchvision torchaudio
pip install accelerate
pip install transformers

代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer, set_seed
import torch

model_path="ibm-granite/granite-3.3-8b-instruct"
device="cuda"
model = AutoModelForCausalLM.from_pretrained(
        model_path,
        device_map=device,
        torch_dtype=torch.bfloat16,
    )
tokenizer = AutoTokenizer.from_pretrained(
        model_path
)

conv = [{"role": "user", "content":"Redesign a common household item to make it more sustainable and user-friendly. Explain the changes and their benefits."}]

input_ids = tokenizer.apply_chat_template(conv, return_tensors="pt", thinking=True, return_dict=True, add_generation_prompt=True).to(device)

set_seed(42)
output = model.generate(
    **input_ids,
    max_new_tokens=8192,
)

prediction = tokenizer.decode(output[0, input_ids["input_ids"].shape[1]:], skip_special_tokens=True)
print(prediction)

✨ 主要特性

超低比特量化技术：引入了精确自适应量化方法，用于超低比特模型（1 - 2比特），在Llama - 3 - 8B上经过基准测试验证有显著改进。
多语言支持：支持英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文等多种语言。
推理能力增强：通过微调，在推理和遵循指令方面的能力得到显著提升。
结构化推理：支持通过<think></think>和<response></response>标签进行结构化推理，清晰分离内部思考和最终输出。

📦 安装指南

安装所需的依赖库，具体命令如下：

pip install torch torchvision torchaudio
pip install accelerate
pip install transformers

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer, set_seed
import torch

model_path="ibm-granite/granite-3.3-8b-instruct"
device="cuda"
model = AutoModelForCausalLM.from_pretrained(
        model_path,
        device_map=device,
        torch_dtype=torch.bfloat16,
    )
tokenizer = AutoTokenizer.from_pretrained(
        model_path
)

conv = [{"role": "user", "content":"Redesign a common household item to make it more sustainable and user-friendly. Explain the changes and their benefits."}]

input_ids = tokenizer.apply_chat_template(conv, return_tensors="pt", thinking=True, return_dict=True, add_generation_prompt=True).to(device)

set_seed(42)
output = model.generate(
    **input_ids,
    max_new_tokens=8192,
)

prediction = tokenizer.decode(output[0, input_ids["input_ids"].shape[1]:], skip_special_tokens=True)
print(prediction)

高级用法

在不同的推理场景中，可以根据需要调整模型的参数，例如max_new_tokens等，以满足不同的需求。

📚 详细文档

模型格式选择

选择正确的模型格式取决于您的硬件能力和内存限制，具体如下：

属性	详情
模型类型	BF16（Brain Float 16）：适用于支持BF16加速的硬件，具有更快的计算速度和较低的内存使用；F16（Float 16）：比BF16更广泛支持，适用于支持FP16但不支持BF16的硬件；量化模型（Q4_K、Q6_K、Q8等）：适用于CPU和低VRAM推理，可在保持一定准确性的同时减少模型大小和内存使用；极低比特量化模型（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）：针对极端内存效率进行优化，适用于低功耗设备或大规模部署。
训练数据	主要由两部分组成：（1）具有宽松许可的公开可用数据集；（2）内部合成生成的数据，旨在增强推理能力。

属性

详情

模型类型

BF16（Brain Float 16）：适用于支持BF16加速的硬件，具有更快的计算速度和较低的内存使用；F16（Float 16）：比BF16更广泛支持，适用于支持FP16但不支持BF16的硬件；量化模型（Q4_K、Q6_K、Q8等）：适用于CPU和低VRAM推理，可在保持一定准确性的同时减少模型大小和内存使用；极低比特量化模型（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）：针对极端内存效率进行优化，适用于低功耗设备或大规模部署。

训练数据

主要由两部分组成：（1）具有宽松许可的公开可用数据集；（2）内部合成生成的数据，旨在增强推理能力。

包含的文件及详情

granite-3.3-8b-instruct-bf16.gguf：模型权重保存为BF16格式，适用于需要重新量化模型或设备支持BF16加速的情况。
granite-3.3-8b-instruct-f16.gguf：模型权重保存为F16格式，适用于支持FP16但不支持BF16的设备。
granite-3.3-8b-instruct-bf16-q8_0.gguf：输出和嵌入层保持为BF16，其他层量化为Q8_0，适用于支持BF16且需要量化版本的设备。
granite-3.3-8b-instruct-f16-q8_0.gguf：输出和嵌入层保持为F16，其他层量化为Q8_0。
granite-3.3-8b-instruct-q4_k.gguf：输出和嵌入层量化为Q8_0，其他层量化为Q4_K，适用于内存有限的CPU推理。
granite-3.3-8b-instruct-q4_k_s.gguf：最小的Q4_K变体，以牺牲一定准确性为代价减少内存使用，适用于极低内存设置。
granite-3.3-8b-instruct-q6_k.gguf：输出和嵌入层量化为Q8_0，其他层量化为Q6_K。
granite-3.3-8b-instruct-q8_0.gguf：完全Q8量化的模型，准确性更高，但需要更多内存。
granite-3.3-8b-instruct-iq3_xs.gguf：IQ3_XS量化，针对极端内存效率进行优化，适用于超低内存设备。
granite-3.3-8b-instruct-iq3_m.gguf：IQ3_M量化，提供中等块大小以提高准确性，适用于低内存设备。
granite-3.3-8b-instruct-q4_0.gguf：纯Q4_0量化，针对ARM设备进行优化，适用于低内存环境，建议使用IQ4_NL以获得更好的准确性。

测试模型

如果您发现这些模型有用，可以帮助测试AI网络监控助手，具体步骤如下：

点击免费网络监控。
点击页面右下角的聊天图标。
选择AI助手类型：
- TurboLLM（GPT - 4 - mini）
- FreeLLM（开源）
- TestLLM（仅支持CPU的实验性模型）

示例AI命令

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"

🔧 技术细节

超低比特量化方法

最新的量化方法引入了精确自适应量化，用于超低比特模型（1 - 2比特），在Llama - 3 - 8B上经过基准测试验证有显著改进。具体方法如下：

动态精度分配：前/后25%的层采用IQ4_XS（选定层），中间50%采用IQ2_XXS/IQ3_S（提高效率）。
关键组件保护：嵌入层和输出层使用Q5_K，与标准的1 - 2比特量化相比，可将误差传播降低38%。

量化性能比较

量化方式	标准困惑度	DynamicGate困惑度	困惑度变化	标准大小	DG大小	大小变化	标准速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

评估结果

在多个基准测试中，Granite - 3.3 - 8B - Instruct表现出色，具体结果如下：

模型	Arena - Hard	AlpacaEval - 2.0	MMLU	PopQA	TruthfulQA	BigBenchHard	DROP	GSM8K	HumanEval	HumanEval+	IFEval	AttaQ
Granite - 3.1 - 2B - Instruct	23.3	27.17	57.11	20.55	59.79	61.82	20.99	67.55	79.45	75.26	63.59	84.7
Granite - 3.2 - 2B - Instruct	24.86	34.51	57.18	20.56	59.8	61.39	23.84	67.02	80.13	73.39	61.55	83.23
Granite - 3.3 - 2B - Instruct	28.86	43.45	55.88	18.4	58.97	63.91	44.33	72.48	80.51	75.68	65.8	87.47
Llama - 3.1 - 8B - Instruct	36.43	27.22	69.15	28.79	52.79	73.43	71.23	83.24	85.32	80.15	79.10	83.43
DeepSeek - R1 - Distill - Llama - 8B	17.17	21.85	45.80	13.25	47.43	67.39	49.73	72.18	67.54	62.91	66.50	42.87
Qwen - 2.5 - 7B - Instruct	25.44	30.34	74.30	18.12	63.06	69.19	64.06	84.46	93.35	89.91	74.90	81.90
DeepSeek - R1 - Distill - Qwen - 7B	10.36	15.35	50.72	9.94	47.14	67.38	51.78	78.47	79.89	78.43	59.10	42.45
Granite - 3.1 - 8B - Instruct	37.58	30.34	66.77	28.7	65.84	69.87	58.57	79.15	89.63	85.79	73.20	85.73
Granite - 3.2 - 8B - Instruct	55.25	61.19	66.79	28.04	66.92	71.86	58.29	81.65	89.35	85.72	74.31	84.7
Granite - 3.3 - 8B - Instruct	57.56	62.68	65.54	26.17	66.86	69.13	59.36	80.89	89.73	86.09	74.82	88.5

数学基准测试

模型	AIME24	MATH - 500
Granite - 3.1 - 2B - Instruct	0.89	35.07
Granite - 3.2 - 2B - Instruct	0.89	35.54
Granite - 3.3 - 2B - Instruct	3.28	58.09
Granite - 3.1 - 8B - Instruct	1.97	48.73
Granite - 3.2 - 8B - Instruct	2.43	52.8
Granite - 3.3 - 8B - Instruct	8.12	69.02