# INT4量化

Gemma 3 27b It Quantized.w4a16
这是google/gemma-3-27b-it的量化版本,支持视觉-文本输入和文本输出,通过权重量化和激活量化优化,可使用vLLM进行高效推理。
图像生成文本 Transformers
G
RedHatAI
302
1
Qwen3 30B A3B Quantized.w4a16
Apache-2.0
Qwen3-30B-A3B的INT4量化版本,通过权重量化减少75%的磁盘和GPU内存需求,保持高性能。
大型语言模型 Transformers
Q
RedHatAI
379
2
Qwen3 32B Quantized.w4a16
Apache-2.0
Qwen3-32B的INT4量化版本,通过权重量化减少75%的磁盘和GPU内存需求,保持高性能
大型语言模型 Transformers
Q
RedHatAI
2,213
5
Deepseek R1 Quantized.w4a16
MIT
DeepSeek-R1的INT4权重量化版本,通过减少权重位数降低GPU内存和磁盘空间需求约50%,保持原始模型性能。
大型语言模型 Safetensors
D
RedHatAI
119
4
Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16
Apache-2.0
这是一个经过INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat (Neural Magic)优化发布,适用于快速响应的对话代理和低延迟推理场景。
文本生成图像 Safetensors 支持多种语言
M
RedHatAI
219
1
Gemma 3 12b It GPTQ 4b 128g
该模型是对google/gemma-3-12b-it进行INT4量化的版本,通过GPTQ算法将参数从16比特降至4比特,显著减少了磁盘空间和GPU内存需求。
图像生成文本 Transformers
G
ISTA-DASLab
1,175
2
Gemma 3 4b It GPTQ 4b 128g
基于gemma-3-4b-it模型进行INT4量化的版本,显著减少存储和计算资源需求
图像生成文本 Transformers
G
ISTA-DASLab
502
2
Whisper Large V3 Turbo Quantized.w4a16
Apache-2.0
基于openai/whisper-large-v3-turbo的INT4权重量化版本,支持高效音频转文本任务
语音识别 Transformers 英语
W
RedHatAI
1,851
2
Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g
Apache-2.0
本模型是对Mistral-Small-3.1-24B-Instruct-2503进行INT4量化的版本,通过GPTQ算法将权重从16位降至4位,显著减少磁盘大小和GPU内存需求。
大型语言模型
M
ISTA-DASLab
21.89k
13
Gemma 3 27b It GPTQ 4b 128g
该模型是对gemma-3-27b-it进行INT4量化的版本,通过减少每个参数的比特数来降低磁盘和GPU内存需求。
图像生成文本 Transformers
G
ISTA-DASLab
32.15k
25
Whisper Large V3.w4a16
Apache-2.0
这是openai/whisper-large-v3的量化版本,采用INT4权重量化和FP16激活量化,适用于vLLM推理。
语音识别 Transformers 英语
W
nm-testing
20
1
Svdq Int4 Flux.1 Depth Dev
其他
FLUX.1-Depth-dev的INT4量化版本,能够根据文本描述生成图像,同时遵循输入图像的结构。相比原始BF16模型,该版本可节省约4倍内存,运行速度提升2-3倍。
图像生成 英语
S
mit-han-lab
9,085
3
FLUX.1 Dev Qint4
其他
FLUX.1-dev 是一个文本生成图像的模型,已使用 Optimum Quanto 量化为 INT4 格式,适用于非商业用途。
文本生成图像 英语
F
Disty0
455
12
Meta Llama 3.1 8B Instruct Quantized.w4a16
Meta-Llama-3.1-8B-Instruct的量化版本,经过优化减少磁盘空间和GPU内存需求,适用于英文商业和研究用途的聊天助手场景。
大型语言模型 Transformers 支持多种语言
M
RedHatAI
27.51k
28
Meta Llama 3.1 70B Instruct AWQ INT4
Llama 3.1 70B Instruct的INT4量化版本,基于AutoAWQ技术优化,适用于多语言对话场景。
大型语言模型 Transformers 支持多种语言
M
hugging-quants
80.59k
100
Meta Llama 3.1 8B Instruct AWQ INT4
Llama 3.1 8B Instruct的INT4量化版本,基于AutoAWQ工具进行量化,适用于多语言对话场景。
大型语言模型 Transformers 支持多种语言
M
hugging-quants
348.23k
67
Whisper Large Onnx Int4 Inc
Apache-2.0
Whisper是一种预训练模型,用于自动语音识别(ASR)和语音翻译。本仓库提供ONNX格式的Whisper大型模型INT4权重量化版本,由英特尔®神经压缩器和英特尔®Transformers扩展驱动。
语音识别 Transformers
W
Intel
44
8
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase