Granite 3.3 8b Instruct GGUF
G
Granite 3.3 8b Instruct GGUF
由 Mungert 开发
采用IQ-DynamicGate技术的超低位量化(1-2比特)语言模型,适用于内存受限环境
下载量 759
发布时间 : 4/17/2025
模型简介
该模型是基于granite-3.3-8b-base的指令调优版本,采用创新的IQ-DynamicGate量化技术,在保持极致内存效率的同时优化模型精度。
模型特点
IQ-DynamicGate量化技术
采用精度自适应量化,对不同层采用不同位宽(1-4比特),在保持内存效率的同时优化模型精度
超低位量化支持
支持1-2比特的极致量化,适合内存受限设备
分层量化策略
对关键组件(如嵌入层)采用更高精度保护,减少误差传播
多格式支持
提供BF16、F16及多种量化格式(Q4_K、Q6_K、Q8_0等)以适应不同硬件
模型能力
文本生成
指令跟随
低内存推理
CPU优化推理
使用案例
边缘计算
移动设备AI助手
在内存有限的移动设备上部署智能助手
1-2比特量化版本可在保持可用性的同时大幅减少内存占用
研究领域
超低位量化研究
研究极端量化条件下的模型行为
提供多种1-3比特量化变体供研究比较
🚀 Granite-3.3-8B-Instruct GGUF模型
Granite-3.3-8B-Instruct GGUF模型是一种经过优化的语言模型,采用了超低比特量化技术,在保持高效内存使用的同时,还能维持较高的准确性。该模型适用于多种场景,包括AI网络监控等领域。
🚀 快速开始
安装依赖库
pip install torch torchvision torchaudio
pip install accelerate
pip install transformers
代码示例
from transformers import AutoModelForCausalLM, AutoTokenizer, set_seed
import torch
model_path="ibm-granite/granite-3.3-8b-instruct"
device="cuda"
model = AutoModelForCausalLM.from_pretrained(
model_path,
device_map=device,
torch_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(
model_path
)
conv = [{"role": "user", "content":"Redesign a common household item to make it more sustainable and user-friendly. Explain the changes and their benefits."}]
input_ids = tokenizer.apply_chat_template(conv, return_tensors="pt", thinking=True, return_dict=True, add_generation_prompt=True).to(device)
set_seed(42)
output = model.generate(
**input_ids,
max_new_tokens=8192,
)
prediction = tokenizer.decode(output[0, input_ids["input_ids"].shape[1]:], skip_special_tokens=True)
print(prediction)
✨ 主要特性
- 超低比特量化技术:引入了精确自适应量化方法,用于超低比特模型(1 - 2比特),在Llama - 3 - 8B上经过基准测试验证有显著改进。
- 多语言支持:支持英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文等多种语言。
- 推理能力增强:通过微调,在推理和遵循指令方面的能力得到显著提升。
- 结构化推理:支持通过
<think></think>
和<response></response>
标签进行结构化推理,清晰分离内部思考和最终输出。
📦 安装指南
安装所需的依赖库,具体命令如下:
pip install torch torchvision torchaudio
pip install accelerate
pip install transformers
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer, set_seed
import torch
model_path="ibm-granite/granite-3.3-8b-instruct"
device="cuda"
model = AutoModelForCausalLM.from_pretrained(
model_path,
device_map=device,
torch_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(
model_path
)
conv = [{"role": "user", "content":"Redesign a common household item to make it more sustainable and user-friendly. Explain the changes and their benefits."}]
input_ids = tokenizer.apply_chat_template(conv, return_tensors="pt", thinking=True, return_dict=True, add_generation_prompt=True).to(device)
set_seed(42)
output = model.generate(
**input_ids,
max_new_tokens=8192,
)
prediction = tokenizer.decode(output[0, input_ids["input_ids"].shape[1]:], skip_special_tokens=True)
print(prediction)
高级用法
在不同的推理场景中,可以根据需要调整模型的参数,例如max_new_tokens
等,以满足不同的需求。
📚 详细文档
模型格式选择
选择正确的模型格式取决于您的硬件能力和内存限制,具体如下:
属性 | 详情 |
---|---|
模型类型 | BF16(Brain Float 16):适用于支持BF16加速的硬件,具有更快的计算速度和较低的内存使用;F16(Float 16):比BF16更广泛支持,适用于支持FP16但不支持BF16的硬件;量化模型(Q4_K、Q6_K、Q8等):适用于CPU和低VRAM推理,可在保持一定准确性的同时减少模型大小和内存使用;极低比特量化模型(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0):针对极端内存效率进行优化,适用于低功耗设备或大规模部署。 |
训练数据 | 主要由两部分组成:(1)具有宽松许可的公开可用数据集;(2)内部合成生成的数据,旨在增强推理能力。 |
包含的文件及详情
granite-3.3-8b-instruct-bf16.gguf
:模型权重保存为BF16格式,适用于需要重新量化模型或设备支持BF16加速的情况。granite-3.3-8b-instruct-f16.gguf
:模型权重保存为F16格式,适用于支持FP16但不支持BF16的设备。granite-3.3-8b-instruct-bf16-q8_0.gguf
:输出和嵌入层保持为BF16,其他层量化为Q8_0,适用于支持BF16且需要量化版本的设备。granite-3.3-8b-instruct-f16-q8_0.gguf
:输出和嵌入层保持为F16,其他层量化为Q8_0。granite-3.3-8b-instruct-q4_k.gguf
:输出和嵌入层量化为Q8_0,其他层量化为Q4_K,适用于内存有限的CPU推理。granite-3.3-8b-instruct-q4_k_s.gguf
:最小的Q4_K变体,以牺牲一定准确性为代价减少内存使用,适用于极低内存设置。granite-3.3-8b-instruct-q6_k.gguf
:输出和嵌入层量化为Q8_0,其他层量化为Q6_K。granite-3.3-8b-instruct-q8_0.gguf
:完全Q8量化的模型,准确性更高,但需要更多内存。granite-3.3-8b-instruct-iq3_xs.gguf
:IQ3_XS量化,针对极端内存效率进行优化,适用于超低内存设备。granite-3.3-8b-instruct-iq3_m.gguf
:IQ3_M量化,提供中等块大小以提高准确性,适用于低内存设备。granite-3.3-8b-instruct-q4_0.gguf
:纯Q4_0量化,针对ARM设备进行优化,适用于低内存环境,建议使用IQ4_NL以获得更好的准确性。
测试模型
如果您发现这些模型有用,可以帮助测试AI网络监控助手,具体步骤如下:
- 点击免费网络监控。
- 点击页面右下角的聊天图标。
- 选择AI助手类型:
TurboLLM
(GPT - 4 - mini)FreeLLM
(开源)TestLLM
(仅支持CPU的实验性模型)
示例AI命令
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"
🔧 技术细节
超低比特量化方法
最新的量化方法引入了精确自适应量化,用于超低比特模型(1 - 2比特),在Llama - 3 - 8B上经过基准测试验证有显著改进。具体方法如下:
- 动态精度分配:前/后25%的层采用IQ4_XS(选定层),中间50%采用IQ2_XXS/IQ3_S(提高效率)。
- 关键组件保护:嵌入层和输出层使用Q5_K,与标准的1 - 2比特量化相比,可将误差传播降低38%。
量化性能比较
量化方式 | 标准困惑度 | DynamicGate困惑度 | 困惑度变化 | 标准大小 | DG大小 | 大小变化 | 标准速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
评估结果
在多个基准测试中,Granite - 3.3 - 8B - Instruct表现出色,具体结果如下:
模型 | Arena - Hard | AlpacaEval - 2.0 | MMLU | PopQA | TruthfulQA | BigBenchHard | DROP | GSM8K | HumanEval | HumanEval+ | IFEval | AttaQ |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Granite - 3.1 - 2B - Instruct | 23.3 | 27.17 | 57.11 | 20.55 | 59.79 | 61.82 | 20.99 | 67.55 | 79.45 | 75.26 | 63.59 | 84.7 |
Granite - 3.2 - 2B - Instruct | 24.86 | 34.51 | 57.18 | 20.56 | 59.8 | 61.39 | 23.84 | 67.02 | 80.13 | 73.39 | 61.55 | 83.23 |
Granite - 3.3 - 2B - Instruct | 28.86 | 43.45 | 55.88 | 18.4 | 58.97 | 63.91 | 44.33 | 72.48 | 80.51 | 75.68 | 65.8 | 87.47 |
Llama - 3.1 - 8B - Instruct | 36.43 | 27.22 | 69.15 | 28.79 | 52.79 | 73.43 | 71.23 | 83.24 | 85.32 | 80.15 | 79.10 | 83.43 |
DeepSeek - R1 - Distill - Llama - 8B | 17.17 | 21.85 | 45.80 | 13.25 | 47.43 | 67.39 | 49.73 | 72.18 | 67.54 | 62.91 | 66.50 | 42.87 |
Qwen - 2.5 - 7B - Instruct | 25.44 | 30.34 | 74.30 | 18.12 | 63.06 | 69.19 | 64.06 | 84.46 | 93.35 | 89.91 | 74.90 | 81.90 |
DeepSeek - R1 - Distill - Qwen - 7B | 10.36 | 15.35 | 50.72 | 9.94 | 47.14 | 67.38 | 51.78 | 78.47 | 79.89 | 78.43 | 59.10 | 42.45 |
Granite - 3.1 - 8B - Instruct | 37.58 | 30.34 | 66.77 | 28.7 | 65.84 | 69.87 | 58.57 | 79.15 | 89.63 | 85.79 | 73.20 | 85.73 |
Granite - 3.2 - 8B - Instruct | 55.25 | 61.19 | 66.79 | 28.04 | 66.92 | 71.86 | 58.29 | 81.65 | 89.35 | 85.72 | 74.31 | 84.7 |
Granite - 3.3 - 8B - Instruct | 57.56 | 62.68 | 65.54 | 26.17 | 66.86 | 69.13 | 59.36 | 80.89 | 89.73 | 86.09 | 74.82 | 88.5 |
数学基准测试
模型 | AIME24 | MATH - 500 |
---|---|---|
Granite - 3.1 - 2B - Instruct | 0.89 | 35.07 |
Granite - 3.2 - 2B - Instruct | 0.89 | 35.54 |
Granite - 3.3 - 2B - Instruct | 3.28 | 58.09 |
Granite - 3.1 - 8B - Instruct | 1.97 | 48.73 |
Granite - 3.2 - 8B - Instruct | 2.43 | 52.8 |
Granite - 3.3 - 8B - Instruct | 8.12 | 69.02 |
📄 许可证
本项目采用Apache 2.0许可证。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98