# INT4量化

Gemma 3 27b It Quantized.w4a16
這是google/gemma-3-27b-it的量化版本,支持視覺-文本輸入和文本輸出,通過權重量化和激活量化優化,可使用vLLM進行高效推理。
圖像生成文本 Transformers
G
RedHatAI
302
1
Qwen3 30B A3B Quantized.w4a16
Apache-2.0
Qwen3-30B-A3B的INT4量化版本,通過權重量化減少75%的磁盤和GPU內存需求,保持高性能。
大型語言模型 Transformers
Q
RedHatAI
379
2
Qwen3 32B Quantized.w4a16
Apache-2.0
Qwen3-32B的INT4量化版本,通過權重量化減少75%的磁盤和GPU內存需求,保持高性能
大型語言模型 Transformers
Q
RedHatAI
2,213
5
Deepseek R1 Quantized.w4a16
MIT
DeepSeek-R1的INT4權重量化版本,通過減少權重位數降低GPU內存和磁盤空間需求約50%,保持原始模型性能。
大型語言模型 Safetensors
D
RedHatAI
119
4
Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16
Apache-2.0
這是一個經過INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat (Neural Magic)優化發佈,適用於快速響應的對話代理和低延遲推理場景。
文本生成圖像 Safetensors 支持多種語言
M
RedHatAI
219
1
Gemma 3 12b It GPTQ 4b 128g
該模型是對google/gemma-3-12b-it進行INT4量化的版本,通過GPTQ算法將參數從16比特降至4比特,顯著減少了磁盤空間和GPU內存需求。
圖像生成文本 Transformers
G
ISTA-DASLab
1,175
2
Gemma 3 4b It GPTQ 4b 128g
基於gemma-3-4b-it模型進行INT4量化的版本,顯著減少存儲和計算資源需求
圖像生成文本 Transformers
G
ISTA-DASLab
502
2
Whisper Large V3 Turbo Quantized.w4a16
Apache-2.0
基於openai/whisper-large-v3-turbo的INT4權重量化版本,支持高效音頻轉文本任務
語音識別 Transformers 英語
W
RedHatAI
1,851
2
Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g
Apache-2.0
本模型是對Mistral-Small-3.1-24B-Instruct-2503進行INT4量化的版本,通過GPTQ算法將權重從16位降至4位,顯著減少磁盤大小和GPU內存需求。
大型語言模型
M
ISTA-DASLab
21.89k
13
Gemma 3 27b It GPTQ 4b 128g
該模型是對gemma-3-27b-it進行INT4量化的版本,通過減少每個參數的比特數來降低磁盤和GPU內存需求。
圖像生成文本 Transformers
G
ISTA-DASLab
32.15k
25
Whisper Large V3.w4a16
Apache-2.0
這是openai/whisper-large-v3的量化版本,採用INT4權重量化和FP16激活量化,適用於vLLM推理。
語音識別 Transformers 英語
W
nm-testing
20
1
Svdq Int4 Flux.1 Depth Dev
其他
FLUX.1-Depth-dev的INT4量化版本,能夠根據文本描述生成圖像,同時遵循輸入圖像的結構。相比原始BF16模型,該版本可節省約4倍內存,運行速度提升2-3倍。
圖像生成 英語
S
mit-han-lab
9,085
3
FLUX.1 Dev Qint4
其他
FLUX.1-dev 是一個文本生成圖像的模型,已使用 Optimum Quanto 量化為 INT4 格式,適用於非商業用途。
文本生成圖像 英語
F
Disty0
455
12
Meta Llama 3.1 8B Instruct Quantized.w4a16
Meta-Llama-3.1-8B-Instruct的量化版本,經過優化減少磁盤空間和GPU內存需求,適用於英文商業和研究用途的聊天助手場景。
大型語言模型 Transformers 支持多種語言
M
RedHatAI
27.51k
28
Meta Llama 3.1 70B Instruct AWQ INT4
Llama 3.1 70B Instruct的INT4量化版本,基於AutoAWQ技術優化,適用於多語言對話場景。
大型語言模型 Transformers 支持多種語言
M
hugging-quants
80.59k
100
Meta Llama 3.1 8B Instruct AWQ INT4
Llama 3.1 8B Instruct的INT4量化版本,基於AutoAWQ工具進行量化,適用於多語言對話場景。
大型語言模型 Transformers 支持多種語言
M
hugging-quants
348.23k
67
Whisper Large Onnx Int4 Inc
Apache-2.0
Whisper是一種預訓練模型,用於自動語音識別(ASR)和語音翻譯。本倉庫提供ONNX格式的Whisper大型模型INT4權重量化版本,由英特爾®神經壓縮器和英特爾®Transformers擴展驅動。
語音識別 Transformers
W
Intel
44
8
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase