Gemma 3 27b It Quantized.w4a16
這是google/gemma-3-27b-it的量化版本,支持視覺-文本輸入和文本輸出,通過權重量化和激活量化優化,可使用vLLM進行高效推理。
圖像生成文本
Transformers

G
RedHatAI
302
1
Qwen3 30B A3B Quantized.w4a16
Apache-2.0
Qwen3-30B-A3B的INT4量化版本,通過權重量化減少75%的磁盤和GPU內存需求,保持高性能。
大型語言模型
Transformers

Q
RedHatAI
379
2
Qwen3 32B Quantized.w4a16
Apache-2.0
Qwen3-32B的INT4量化版本,通過權重量化減少75%的磁盤和GPU內存需求,保持高性能
大型語言模型
Transformers

Q
RedHatAI
2,213
5
Deepseek R1 Quantized.w4a16
MIT
DeepSeek-R1的INT4權重量化版本,通過減少權重位數降低GPU內存和磁盤空間需求約50%,保持原始模型性能。
大型語言模型
Safetensors
D
RedHatAI
119
4
Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16
Apache-2.0
這是一個經過INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat (Neural Magic)優化發佈,適用於快速響應的對話代理和低延遲推理場景。
文本生成圖像
Safetensors 支持多種語言
M
RedHatAI
219
1
Gemma 3 12b It GPTQ 4b 128g
該模型是對google/gemma-3-12b-it進行INT4量化的版本,通過GPTQ算法將參數從16比特降至4比特,顯著減少了磁盤空間和GPU內存需求。
圖像生成文本
Transformers

G
ISTA-DASLab
1,175
2
Gemma 3 4b It GPTQ 4b 128g
基於gemma-3-4b-it模型進行INT4量化的版本,顯著減少存儲和計算資源需求
圖像生成文本
Transformers

G
ISTA-DASLab
502
2
Whisper Large V3 Turbo Quantized.w4a16
Apache-2.0
基於openai/whisper-large-v3-turbo的INT4權重量化版本,支持高效音頻轉文本任務
語音識別
Transformers 英語

W
RedHatAI
1,851
2
Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g
Apache-2.0
本模型是對Mistral-Small-3.1-24B-Instruct-2503進行INT4量化的版本,通過GPTQ算法將權重從16位降至4位,顯著減少磁盤大小和GPU內存需求。
大型語言模型
M
ISTA-DASLab
21.89k
13
Gemma 3 27b It GPTQ 4b 128g
該模型是對gemma-3-27b-it進行INT4量化的版本,通過減少每個參數的比特數來降低磁盤和GPU內存需求。
圖像生成文本
Transformers

G
ISTA-DASLab
32.15k
25
Whisper Large V3.w4a16
Apache-2.0
這是openai/whisper-large-v3的量化版本,採用INT4權重量化和FP16激活量化,適用於vLLM推理。
語音識別
Transformers 英語

W
nm-testing
20
1
Svdq Int4 Flux.1 Depth Dev
其他
FLUX.1-Depth-dev的INT4量化版本,能夠根據文本描述生成圖像,同時遵循輸入圖像的結構。相比原始BF16模型,該版本可節省約4倍內存,運行速度提升2-3倍。
圖像生成 英語
S
mit-han-lab
9,085
3
FLUX.1 Dev Qint4
其他
FLUX.1-dev 是一個文本生成圖像的模型,已使用 Optimum Quanto 量化為 INT4 格式,適用於非商業用途。
文本生成圖像 英語
F
Disty0
455
12
Meta Llama 3.1 8B Instruct Quantized.w4a16
Meta-Llama-3.1-8B-Instruct的量化版本,經過優化減少磁盤空間和GPU內存需求,適用於英文商業和研究用途的聊天助手場景。
大型語言模型
Transformers 支持多種語言

M
RedHatAI
27.51k
28
Meta Llama 3.1 70B Instruct AWQ INT4
Llama 3.1 70B Instruct的INT4量化版本,基於AutoAWQ技術優化,適用於多語言對話場景。
大型語言模型
Transformers 支持多種語言

M
hugging-quants
80.59k
100
Meta Llama 3.1 8B Instruct AWQ INT4
Llama 3.1 8B Instruct的INT4量化版本,基於AutoAWQ工具進行量化,適用於多語言對話場景。
大型語言模型
Transformers 支持多種語言

M
hugging-quants
348.23k
67
Whisper Large Onnx Int4 Inc
Apache-2.0
Whisper是一種預訓練模型,用於自動語音識別(ASR)和語音翻譯。本倉庫提供ONNX格式的Whisper大型模型INT4權重量化版本,由英特爾®神經壓縮器和英特爾®Transformers擴展驅動。
語音識別
Transformers

W
Intel
44
8
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98