# 高效部署

Gemma 3 4b It Quantized.w4a16
基於google/gemma-3-4b-it的量化版本,採用INT4權重量化和FP16激活量化,優化推理效率
圖像生成文本 Transformers
G
RedHatAI
195
1
GLM 4 32B 0414 4bit DWQ
MIT
這是THUDM/GLM-4-32B-0414模型的MLX格式版本,經過4位DWQ量化處理,適用於蘋果芯片設備的高效推理。
大型語言模型 支持多種語言
G
mlx-community
156
4
Spec T1 RL 7B
MIT
Spec-T1-RL-7B 是一款專注於數學推理、算法問題解決和代碼生成的高精度大語言模型,在技術基準測試中表現卓越。
大型語言模型 Safetensors 英語
S
SVECTOR-CORPORATION
4,626
6
Qwen3 30B A3B Gptq 8bit
Apache-2.0
Qwen3 30B A3B是一個採用GPTQ方法進行8位量化處理的大語言模型,適用於高效推理場景。
大型語言模型 Transformers
Q
btbtyler09
301
2
Whisper Large V3 Turbo Quantized.w4a16
Apache-2.0
基於openai/whisper-large-v3-turbo的INT4權重量化版本,支持高效音頻轉文本任務
語音識別 Transformers 英語
W
RedHatAI
1,851
2
Orpheus 3b 0.1 Ft Q4 K M GGUF
Apache-2.0
Orpheus-3B-0.1-FT 的 GGUF 量化版本,適用於高效推理
大型語言模型 英語
O
freddyaboulton
30
1
Llama 2 7b Chat Hf GGUF
Llama 2是由Meta開發的7B參數規模的大語言模型,提供多種量化版本以適應不同硬件需求。
大型語言模型 英語
L
Mungert
1,348
3
Deepseek R1 Medical COT GGUF
Apache-2.0
DeepSeek-R1-Medical-COT 是一個專注於醫學領域的思維鏈推理模型,提供多種量化版本以適應不同硬件需求。
大型語言模型 英語
D
tensorblock
180
1
Qwq 32B Bnb 4bit
Apache-2.0
QwQ-32B的4位量化版本,使用Bitsandbytes技術進行優化,適用於資源受限環境下的高效推理
大型語言模型 Transformers
Q
onekq-ai
167
2
Qwen2.5 VL 7B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-7B-Instruct的FP8量化版本,通過vLLM支持高效視覺-文本推理
文本生成圖像 Transformers 英語
Q
RedHatAI
25.18k
1
Deepseek R1 Distill Llama 70B FP8 Dynamic
MIT
DeepSeek-R1-Distill-Llama-70B的FP8量化版本,通過減少權重和激活的位數來優化推理性能
大型語言模型 Transformers
D
RedHatAI
45.77k
9
Molmo 7B D 0924 NF4
Apache-2.0
Molmo-7B-D-0924的4Bit量化版本,通過NF4量化策略降低顯存佔用,適用於顯存受限環境。
圖像生成文本 Transformers
M
Scoolar
1,259
1
Pixtral 12b FP8 Dynamic
Apache-2.0
pixtral-12b-FP8-dynamic 是 mistral-community/pixtral-12b 的量化版本,通過將權重和激活量化為 FP8 數據類型,減少磁盤大小和 GPU 內存需求約 50%,適用於多種語言的商業和研究用途。
文本生成圖像 Safetensors 支持多種語言
P
RedHatAI
87.31k
9
QQQ Llama 3 8b G128
MIT
這是一個基於Llama-3-8b模型進行INT4量化的版本,採用QQQ量化技術,組大小為128,針對硬件優化。
大型語言模型 Transformers
Q
HandH1998
1,708
2
Llama 3 8B Instruct GPTQ 4 Bit
其他
這是一個基於Meta Llama 3構建的4位量化GPTQ模型,由Astronomer量化,可在低VRAM設備上高效運行。
大型語言模型 Transformers
L
astronomer
2,059
25
Moritzlaurer Roberta Base Zeroshot V2.0 C Onnx
Apache-2.0
這是MoritzLaurer/roberta-base-zeroshot-v2.0-c模型的ONNX格式轉換版本,適用於零樣本分類任務。
文本分類 Transformers
M
protectai
14.94k
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase