INT4量化

# INT4量化

Gemma 3 27b It Quantized.w4a16

這是google/gemma-3-27b-it的量化版本，支持視覺-文本輸入和文本輸出，通過權重量化和激活量化優化，可使用vLLM進行高效推理。

圖像生成文本

Qwen3 30B A3B Quantized.w4a16

Qwen3-30B-A3B的INT4量化版本，通過權重量化減少75%的磁盤和GPU內存需求，保持高性能。

大型語言模型

Qwen3 32B Quantized.w4a16

Qwen3-32B的INT4量化版本，通過權重量化減少75%的磁盤和GPU內存需求，保持高性能

大型語言模型

Deepseek R1 Quantized.w4a16

DeepSeek-R1的INT4權重量化版本，通過減少權重位數降低GPU內存和磁盤空間需求約50%，保持原始模型性能。

大型語言模型

Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16

這是一個經過INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型，由Red Hat (Neural Magic)優化發佈，適用於快速響應的對話代理和低延遲推理場景。

文本生成圖像

Safetensors 支持多種語言

Gemma 3 12b It GPTQ 4b 128g

該模型是對google/gemma-3-12b-it進行INT4量化的版本，通過GPTQ算法將參數從16比特降至4比特，顯著減少了磁盤空間和GPU內存需求。

圖像生成文本

Gemma 3 4b It GPTQ 4b 128g

基於gemma-3-4b-it模型進行INT4量化的版本，顯著減少存儲和計算資源需求

圖像生成文本

Whisper Large V3 Turbo Quantized.w4a16

基於openai/whisper-large-v3-turbo的INT4權重量化版本，支持高效音頻轉文本任務

Transformers 英語

Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g

本模型是對Mistral-Small-3.1-24B-Instruct-2503進行INT4量化的版本，通過GPTQ算法將權重從16位降至4位，顯著減少磁盤大小和GPU內存需求。

大型語言模型

Gemma 3 27b It GPTQ 4b 128g

該模型是對gemma-3-27b-it進行INT4量化的版本，通過減少每個參數的比特數來降低磁盤和GPU內存需求。

圖像生成文本

Whisper Large V3.w4a16

這是openai/whisper-large-v3的量化版本，採用INT4權重量化和FP16激活量化，適用於vLLM推理。

Transformers 英語

Svdq Int4 Flux.1 Depth Dev

FLUX.1-Depth-dev的INT4量化版本，能夠根據文本描述生成圖像，同時遵循輸入圖像的結構。相比原始BF16模型，該版本可節省約4倍內存，運行速度提升2-3倍。

圖像生成英語

FLUX.1 Dev Qint4

FLUX.1-dev 是一個文本生成圖像的模型，已使用 Optimum Quanto 量化為 INT4 格式，適用於非商業用途。

文本生成圖像英語

Meta Llama 3.1 8B Instruct Quantized.w4a16

Meta-Llama-3.1-8B-Instruct的量化版本，經過優化減少磁盤空間和GPU內存需求，適用於英文商業和研究用途的聊天助手場景。

大型語言模型

Transformers 支持多種語言

Meta Llama 3.1 70B Instruct AWQ INT4

Llama 3.1 70B Instruct的INT4量化版本，基於AutoAWQ技術優化，適用於多語言對話場景。

大型語言模型

Transformers 支持多種語言

Meta Llama 3.1 8B Instruct AWQ INT4

Llama 3.1 8B Instruct的INT4量化版本，基於AutoAWQ工具進行量化，適用於多語言對話場景。

大型語言模型

Transformers 支持多種語言

Whisper Large Onnx Int4 Inc

Whisper是一種預訓練模型，用於自動語音識別（ASR）和語音翻譯。本倉庫提供ONNX格式的Whisper大型模型INT4權重量化版本，由英特爾®神經壓縮器和英特爾®Transformers擴展驅動。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase