# INT8量化

Bytedance BAGEL 7B MoT INT8
Apache-2.0
BAGEL是一個開源的7B活躍參數多模態基礎模型,支持多模態理解與生成任務
文本生成圖像
B
Gapeleon
190
20
Meta Llama 3.1 8B Instruct Quantized.w8a8
這是Meta-Llama-3.1-8B-Instruct模型的INT8量化版本,通過權重量化和激活量化優化,適用於多語言商業和研究用途。
大型語言模型 Transformers 支持多種語言
M
RedHatAI
9,087
16
Mistral Small 3.1 24B Instruct 2503 Quantized.w8a8
Apache-2.0
這是一個經過INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat和Neural Magic優化,適用於快速響應和低延遲場景。
Safetensors 支持多種語言
M
RedHatAI
833
2
Qwq 32B INT8 W8A8
Apache-2.0
QWQ-32B的INT8量化版本,通過減少權重和激活的表示位數來優化性能
大型語言模型 Transformers 英語
Q
ospatch
590
4
Qwen2.5 VL 7B Instruct Quantized.w8a8
Apache-2.0
Qwen2.5-VL-7B-Instruct的量化版本,支持視覺-文本輸入和文本輸出,通過INT8權重量化優化推理效率
圖像生成文本 Transformers 英語
Q
RedHatAI
1,992
3
Deepseek R1 Distill Qwen 32B Quantized.w8a8
MIT
DeepSeek-R1-Distill-Qwen-32B的INT8量化版本,通過權重量化和激活值量化減少顯存佔用並提升計算效率。
大型語言模型 Transformers
D
neuralmagic
2,324
9
Deepseek R1 Distill Qwen 14B Quantized.w8a8
MIT
DeepSeek-R1-Distill-Qwen-14B的量化版本,通過INT8量化優化了權重和激活,降低了GPU內存需求並提高了計算效率。
大型語言模型 Transformers
D
neuralmagic
765
2
Qwen2.5 7B Instruct Quantized.w8a8
Apache-2.0
Qwen2.5-7B-Instruct的INT8量化版本,適用於商業和研究用途的多語言場景,優化了內存需求和計算吞吐量。
大型語言模型 英語
Q
RedHatAI
412
1
FLUX.1 Dev Qint8
其他
FLUX.1-dev是一個文本生成圖像的擴散模型,已通過Optimum Quanto量化為INT8格式,適用於非商業用途。
文本生成圖像 英語
F
Disty0
2,617
12
BAAI Bge M3 Int8
MIT
BAAI/bge-m3的ONNX INT8量化版本,適用於密集檢索任務,優化了與Vespa Embedding的兼容性。
文本嵌入 Transformers
B
libryo-ai
1,007
1
Bge Large En V1.5 Quant
MIT
BGE-large-en-v1.5的量化(INT8)ONNX變體,通過DeepSparse進行推理加速
文本嵌入 Transformers 英語
B
RedHatAI
1,094
22
Roberta Base Go Emotions Onnx
MIT
這是RoBERTa-base-go_emotions模型的ONNX版本,支持全精度和INT8量化,用於多標籤情感分析任務。
文本分類 Transformers 英語
R
SamLowe
41.50k
20
Vit Base Patch16 224 Int8 Static Inc
Apache-2.0
這是一個使用Intel® Neural Compressor進行訓練後靜態量化的INT8 PyTorch模型,基於Google的ViT模型微調而來,在保持較高準確率的同時大幅減小模型體積。
圖像分類 Transformers
V
Intel
82
1
Distilbert Base Uncased Distilled Squad Int8 Static Inc
Apache-2.0
這是DistilBERT基礎未編碼模型的INT8量化版本,專為問答任務設計,通過訓練後靜態量化優化了模型大小和推理速度。
問答系統 Transformers
D
Intel
1,737
4
Ibert Roberta Large
I-BERT是RoBERTa-large的純整數量化版本,通過INT8存儲參數並使用整數運算執行推理,最高可實現4倍推理加速。
大型語言模型 Transformers
I
kssteven
45
0
Bert Large Uncased Whole Word Masking Squad Int8 0001
基於全詞掩碼技術預訓練並在SQuAD v1.1上微調的BERT-large英文問答模型,量化至INT8精度
問答系統 Transformers
B
dkurt
23
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase