Granite 3.3 8b Instruct GGUF
G
Granite 3.3 8b Instruct GGUF
由Mungert開發
採用IQ-DynamicGate技術的超低位量化(1-2比特)語言模型,適用於內存受限環境
下載量 759
發布時間 : 4/17/2025
模型概述
該模型是基於granite-3.3-8b-base的指令調優版本,採用創新的IQ-DynamicGate量化技術,在保持極致內存效率的同時優化模型精度。
模型特點
IQ-DynamicGate量化技術
採用精度自適應量化,對不同層採用不同位寬(1-4比特),在保持內存效率的同時優化模型精度
超低位量化支持
支持1-2比特的極致量化,適合內存受限設備
分層量化策略
對關鍵組件(如嵌入層)採用更高精度保護,減少誤差傳播
多格式支持
提供BF16、F16及多種量化格式(Q4_K、Q6_K、Q8_0等)以適應不同硬件
模型能力
文本生成
指令跟隨
低內存推理
CPU優化推理
使用案例
邊緣計算
移動設備AI助手
在內存有限的移動設備上部署智能助手
1-2比特量化版本可在保持可用性的同時大幅減少內存佔用
研究領域
超低位量化研究
研究極端量化條件下的模型行為
提供多種1-3比特量化變體供研究比較
🚀 Granite-3.3-8B-Instruct GGUF模型
Granite-3.3-8B-Instruct GGUF模型是一種經過優化的語言模型,採用了超低比特量化技術,在保持高效內存使用的同時,還能維持較高的準確性。該模型適用於多種場景,包括AI網絡監控等領域。
🚀 快速開始
安裝依賴庫
pip install torch torchvision torchaudio
pip install accelerate
pip install transformers
代碼示例
from transformers import AutoModelForCausalLM, AutoTokenizer, set_seed
import torch
model_path="ibm-granite/granite-3.3-8b-instruct"
device="cuda"
model = AutoModelForCausalLM.from_pretrained(
model_path,
device_map=device,
torch_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(
model_path
)
conv = [{"role": "user", "content":"Redesign a common household item to make it more sustainable and user-friendly. Explain the changes and their benefits."}]
input_ids = tokenizer.apply_chat_template(conv, return_tensors="pt", thinking=True, return_dict=True, add_generation_prompt=True).to(device)
set_seed(42)
output = model.generate(
**input_ids,
max_new_tokens=8192,
)
prediction = tokenizer.decode(output[0, input_ids["input_ids"].shape[1]:], skip_special_tokens=True)
print(prediction)
✨ 主要特性
- 超低比特量化技術:引入了精確自適應量化方法,用於超低比特模型(1 - 2比特),在Llama - 3 - 8B上經過基準測試驗證有顯著改進。
- 多語言支持:支持英語、德語、西班牙語、法語、日語、葡萄牙語、阿拉伯語、捷克語、意大利語、韓語、荷蘭語和中文等多種語言。
- 推理能力增強:通過微調,在推理和遵循指令方面的能力得到顯著提升。
- 結構化推理:支持通過
<think></think>
和<response></response>
標籤進行結構化推理,清晰分離內部思考和最終輸出。
📦 安裝指南
安裝所需的依賴庫,具體命令如下:
pip install torch torchvision torchaudio
pip install accelerate
pip install transformers
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer, set_seed
import torch
model_path="ibm-granite/granite-3.3-8b-instruct"
device="cuda"
model = AutoModelForCausalLM.from_pretrained(
model_path,
device_map=device,
torch_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(
model_path
)
conv = [{"role": "user", "content":"Redesign a common household item to make it more sustainable and user-friendly. Explain the changes and their benefits."}]
input_ids = tokenizer.apply_chat_template(conv, return_tensors="pt", thinking=True, return_dict=True, add_generation_prompt=True).to(device)
set_seed(42)
output = model.generate(
**input_ids,
max_new_tokens=8192,
)
prediction = tokenizer.decode(output[0, input_ids["input_ids"].shape[1]:], skip_special_tokens=True)
print(prediction)
高級用法
在不同的推理場景中,可以根據需要調整模型的參數,例如max_new_tokens
等,以滿足不同的需求。
📚 詳細文檔
模型格式選擇
選擇正確的模型格式取決於您的硬件能力和內存限制,具體如下:
屬性 | 詳情 |
---|---|
模型類型 | BF16(Brain Float 16):適用於支持BF16加速的硬件,具有更快的計算速度和較低的內存使用;F16(Float 16):比BF16更廣泛支持,適用於支持FP16但不支持BF16的硬件;量化模型(Q4_K、Q6_K、Q8等):適用於CPU和低VRAM推理,可在保持一定準確性的同時減少模型大小和內存使用;極低比特量化模型(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0):針對極端內存效率進行優化,適用於低功耗設備或大規模部署。 |
訓練數據 | 主要由兩部分組成:(1)具有寬鬆許可的公開可用數據集;(2)內部合成生成的數據,旨在增強推理能力。 |
包含的文件及詳情
granite-3.3-8b-instruct-bf16.gguf
:模型權重保存為BF16格式,適用於需要重新量化模型或設備支持BF16加速的情況。granite-3.3-8b-instruct-f16.gguf
:模型權重保存為F16格式,適用於支持FP16但不支持BF16的設備。granite-3.3-8b-instruct-bf16-q8_0.gguf
:輸出和嵌入層保持為BF16,其他層量化為Q8_0,適用於支持BF16且需要量化版本的設備。granite-3.3-8b-instruct-f16-q8_0.gguf
:輸出和嵌入層保持為F16,其他層量化為Q8_0。granite-3.3-8b-instruct-q4_k.gguf
:輸出和嵌入層量化為Q8_0,其他層量化為Q4_K,適用於內存有限的CPU推理。granite-3.3-8b-instruct-q4_k_s.gguf
:最小的Q4_K變體,以犧牲一定準確性為代價減少內存使用,適用於極低內存設置。granite-3.3-8b-instruct-q6_k.gguf
:輸出和嵌入層量化為Q8_0,其他層量化為Q6_K。granite-3.3-8b-instruct-q8_0.gguf
:完全Q8量化的模型,準確性更高,但需要更多內存。granite-3.3-8b-instruct-iq3_xs.gguf
:IQ3_XS量化,針對極端內存效率進行優化,適用於超低內存設備。granite-3.3-8b-instruct-iq3_m.gguf
:IQ3_M量化,提供中等塊大小以提高準確性,適用於低內存設備。granite-3.3-8b-instruct-q4_0.gguf
:純Q4_0量化,針對ARM設備進行優化,適用於低內存環境,建議使用IQ4_NL以獲得更好的準確性。
測試模型
如果您發現這些模型有用,可以幫助測試AI網絡監控助手,具體步驟如下:
- 點擊免費網絡監控。
- 點擊頁面右下角的聊天圖標。
- 選擇AI助手類型:
TurboLLM
(GPT - 4 - mini)FreeLLM
(開源)TestLLM
(僅支持CPU的實驗性模型)
示例AI命令
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"
🔧 技術細節
超低比特量化方法
最新的量化方法引入了精確自適應量化,用於超低比特模型(1 - 2比特),在Llama - 3 - 8B上經過基準測試驗證有顯著改進。具體方法如下:
- 動態精度分配:前/後25%的層採用IQ4_XS(選定層),中間50%採用IQ2_XXS/IQ3_S(提高效率)。
- 關鍵組件保護:嵌入層和輸出層使用Q5_K,與標準的1 - 2比特量化相比,可將誤差傳播降低38%。
量化性能比較
量化方式 | 標準困惑度 | DynamicGate困惑度 | 困惑度變化 | 標準大小 | DG大小 | 大小變化 | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
評估結果
在多個基準測試中,Granite - 3.3 - 8B - Instruct表現出色,具體結果如下:
模型 | Arena - Hard | AlpacaEval - 2.0 | MMLU | PopQA | TruthfulQA | BigBenchHard | DROP | GSM8K | HumanEval | HumanEval+ | IFEval | AttaQ |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Granite - 3.1 - 2B - Instruct | 23.3 | 27.17 | 57.11 | 20.55 | 59.79 | 61.82 | 20.99 | 67.55 | 79.45 | 75.26 | 63.59 | 84.7 |
Granite - 3.2 - 2B - Instruct | 24.86 | 34.51 | 57.18 | 20.56 | 59.8 | 61.39 | 23.84 | 67.02 | 80.13 | 73.39 | 61.55 | 83.23 |
Granite - 3.3 - 2B - Instruct | 28.86 | 43.45 | 55.88 | 18.4 | 58.97 | 63.91 | 44.33 | 72.48 | 80.51 | 75.68 | 65.8 | 87.47 |
Llama - 3.1 - 8B - Instruct | 36.43 | 27.22 | 69.15 | 28.79 | 52.79 | 73.43 | 71.23 | 83.24 | 85.32 | 80.15 | 79.10 | 83.43 |
DeepSeek - R1 - Distill - Llama - 8B | 17.17 | 21.85 | 45.80 | 13.25 | 47.43 | 67.39 | 49.73 | 72.18 | 67.54 | 62.91 | 66.50 | 42.87 |
Qwen - 2.5 - 7B - Instruct | 25.44 | 30.34 | 74.30 | 18.12 | 63.06 | 69.19 | 64.06 | 84.46 | 93.35 | 89.91 | 74.90 | 81.90 |
DeepSeek - R1 - Distill - Qwen - 7B | 10.36 | 15.35 | 50.72 | 9.94 | 47.14 | 67.38 | 51.78 | 78.47 | 79.89 | 78.43 | 59.10 | 42.45 |
Granite - 3.1 - 8B - Instruct | 37.58 | 30.34 | 66.77 | 28.7 | 65.84 | 69.87 | 58.57 | 79.15 | 89.63 | 85.79 | 73.20 | 85.73 |
Granite - 3.2 - 8B - Instruct | 55.25 | 61.19 | 66.79 | 28.04 | 66.92 | 71.86 | 58.29 | 81.65 | 89.35 | 85.72 | 74.31 | 84.7 |
Granite - 3.3 - 8B - Instruct | 57.56 | 62.68 | 65.54 | 26.17 | 66.86 | 69.13 | 59.36 | 80.89 | 89.73 | 86.09 | 74.82 | 88.5 |
數學基準測試
模型 | AIME24 | MATH - 500 |
---|---|---|
Granite - 3.1 - 2B - Instruct | 0.89 | 35.07 |
Granite - 3.2 - 2B - Instruct | 0.89 | 35.54 |
Granite - 3.3 - 2B - Instruct | 3.28 | 58.09 |
Granite - 3.1 - 8B - Instruct | 1.97 | 48.73 |
Granite - 3.2 - 8B - Instruct | 2.43 | 52.8 |
Granite - 3.3 - 8B - Instruct | 8.12 | 69.02 |
📄 許可證
本項目採用Apache 2.0許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98