# 高效部署

Gemma 3 4b It Quantized.w4a16
基于google/gemma-3-4b-it的量化版本,采用INT4权重量化和FP16激活量化,优化推理效率
图像生成文本 Transformers
G
RedHatAI
195
1
GLM 4 32B 0414 4bit DWQ
MIT
这是THUDM/GLM-4-32B-0414模型的MLX格式版本,经过4位DWQ量化处理,适用于苹果芯片设备的高效推理。
大型语言模型 支持多种语言
G
mlx-community
156
4
Spec T1 RL 7B
MIT
Spec-T1-RL-7B 是一款专注于数学推理、算法问题解决和代码生成的高精度大语言模型,在技术基准测试中表现卓越。
大型语言模型 Safetensors 英语
S
SVECTOR-CORPORATION
4,626
6
Qwen3 30B A3B Gptq 8bit
Apache-2.0
Qwen3 30B A3B是一个采用GPTQ方法进行8位量化处理的大语言模型,适用于高效推理场景。
大型语言模型 Transformers
Q
btbtyler09
301
2
Whisper Large V3 Turbo Quantized.w4a16
Apache-2.0
基于openai/whisper-large-v3-turbo的INT4权重量化版本,支持高效音频转文本任务
语音识别 Transformers 英语
W
RedHatAI
1,851
2
Orpheus 3b 0.1 Ft Q4 K M GGUF
Apache-2.0
Orpheus-3B-0.1-FT 的 GGUF 量化版本,适用于高效推理
大型语言模型 英语
O
freddyaboulton
30
1
Llama 2 7b Chat Hf GGUF
Llama 2是由Meta开发的7B参数规模的大语言模型,提供多种量化版本以适应不同硬件需求。
大型语言模型 英语
L
Mungert
1,348
3
Deepseek R1 Medical COT GGUF
Apache-2.0
DeepSeek-R1-Medical-COT 是一个专注于医学领域的思维链推理模型,提供多种量化版本以适应不同硬件需求。
大型语言模型 英语
D
tensorblock
180
1
Qwq 32B Bnb 4bit
Apache-2.0
QwQ-32B的4位量化版本,使用Bitsandbytes技术进行优化,适用于资源受限环境下的高效推理
大型语言模型 Transformers
Q
onekq-ai
167
2
Qwen2.5 VL 7B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-7B-Instruct的FP8量化版本,通过vLLM支持高效视觉-文本推理
文本生成图像 Transformers 英语
Q
RedHatAI
25.18k
1
Deepseek R1 Distill Llama 70B FP8 Dynamic
MIT
DeepSeek-R1-Distill-Llama-70B的FP8量化版本,通过减少权重和激活的位数来优化推理性能
大型语言模型 Transformers
D
RedHatAI
45.77k
9
Molmo 7B D 0924 NF4
Apache-2.0
Molmo-7B-D-0924的4Bit量化版本,通过NF4量化策略降低显存占用,适用于显存受限环境。
图像生成文本 Transformers
M
Scoolar
1,259
1
Pixtral 12b FP8 Dynamic
Apache-2.0
pixtral-12b-FP8-dynamic 是 mistral-community/pixtral-12b 的量化版本,通过将权重和激活量化为 FP8 数据类型,减少磁盘大小和 GPU 内存需求约 50%,适用于多种语言的商业和研究用途。
文本生成图像 Safetensors 支持多种语言
P
RedHatAI
87.31k
9
QQQ Llama 3 8b G128
MIT
这是一个基于Llama-3-8b模型进行INT4量化的版本,采用QQQ量化技术,组大小为128,针对硬件优化。
大型语言模型 Transformers
Q
HandH1998
1,708
2
Llama 3 8B Instruct GPTQ 4 Bit
其他
这是一个基于Meta Llama 3构建的4位量化GPTQ模型,由Astronomer量化,可在低VRAM设备上高效运行。
大型语言模型 Transformers
L
astronomer
2,059
25
Moritzlaurer Roberta Base Zeroshot V2.0 C Onnx
Apache-2.0
这是MoritzLaurer/roberta-base-zeroshot-v2.0-c模型的ONNX格式转换版本,适用于零样本分类任务。
文本分类 Transformers
M
protectai
14.94k
0
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase