INT4量化

# INT4量化

Gemma 3 27b It Quantized.w4a16

这是google/gemma-3-27b-it的量化版本，支持视觉-文本输入和文本输出，通过权重量化和激活量化优化，可使用vLLM进行高效推理。

图像生成文本

Qwen3 30B A3B Quantized.w4a16

Qwen3-30B-A3B的INT4量化版本，通过权重量化减少75%的磁盘和GPU内存需求，保持高性能。

大型语言模型

Qwen3 32B Quantized.w4a16

Qwen3-32B的INT4量化版本，通过权重量化减少75%的磁盘和GPU内存需求，保持高性能

大型语言模型

Deepseek R1 Quantized.w4a16

DeepSeek-R1的INT4权重量化版本，通过减少权重位数降低GPU内存和磁盘空间需求约50%，保持原始模型性能。

大型语言模型

Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16

这是一个经过INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型，由Red Hat (Neural Magic)优化发布，适用于快速响应的对话代理和低延迟推理场景。

文本生成图像

Safetensors 支持多种语言

Gemma 3 12b It GPTQ 4b 128g

该模型是对google/gemma-3-12b-it进行INT4量化的版本，通过GPTQ算法将参数从16比特降至4比特，显著减少了磁盘空间和GPU内存需求。

图像生成文本

Gemma 3 4b It GPTQ 4b 128g

基于gemma-3-4b-it模型进行INT4量化的版本，显著减少存储和计算资源需求

图像生成文本

Whisper Large V3 Turbo Quantized.w4a16

基于openai/whisper-large-v3-turbo的INT4权重量化版本，支持高效音频转文本任务

Transformers 英语

Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g

本模型是对Mistral-Small-3.1-24B-Instruct-2503进行INT4量化的版本，通过GPTQ算法将权重从16位降至4位，显著减少磁盘大小和GPU内存需求。

大型语言模型

Gemma 3 27b It GPTQ 4b 128g

该模型是对gemma-3-27b-it进行INT4量化的版本，通过减少每个参数的比特数来降低磁盘和GPU内存需求。

图像生成文本

Whisper Large V3.w4a16

这是openai/whisper-large-v3的量化版本，采用INT4权重量化和FP16激活量化，适用于vLLM推理。

Transformers 英语

Svdq Int4 Flux.1 Depth Dev

FLUX.1-Depth-dev的INT4量化版本，能够根据文本描述生成图像，同时遵循输入图像的结构。相比原始BF16模型，该版本可节省约4倍内存，运行速度提升2-3倍。

图像生成英语

FLUX.1 Dev Qint4

FLUX.1-dev 是一个文本生成图像的模型，已使用 Optimum Quanto 量化为 INT4 格式，适用于非商业用途。

文本生成图像英语

Meta Llama 3.1 8B Instruct Quantized.w4a16

Meta-Llama-3.1-8B-Instruct的量化版本，经过优化减少磁盘空间和GPU内存需求，适用于英文商业和研究用途的聊天助手场景。

大型语言模型

Transformers 支持多种语言

Meta Llama 3.1 70B Instruct AWQ INT4

Llama 3.1 70B Instruct的INT4量化版本，基于AutoAWQ技术优化，适用于多语言对话场景。

大型语言模型

Transformers 支持多种语言

Meta Llama 3.1 8B Instruct AWQ INT4

Llama 3.1 8B Instruct的INT4量化版本，基于AutoAWQ工具进行量化，适用于多语言对话场景。

大型语言模型

Transformers 支持多种语言

Whisper Large Onnx Int4 Inc

Whisper是一种预训练模型，用于自动语音识别（ASR）和语音翻译。本仓库提供ONNX格式的Whisper大型模型INT4权重量化版本，由英特尔®神经压缩器和英特尔®Transformers扩展驱动。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase