高效部署

# 高效部署

Gemma 3 4b It Quantized.w4a16

基於google/gemma-3-4b-it的量化版本，採用INT4權重量化和FP16激活量化，優化推理效率

圖像生成文本

GLM 4 32B 0414 4bit DWQ

這是THUDM/GLM-4-32B-0414模型的MLX格式版本，經過4位DWQ量化處理，適用於蘋果芯片設備的高效推理。

大型語言模型支持多種語言

Spec-T1-RL-7B 是一款專注於數學推理、算法問題解決和代碼生成的高精度大語言模型，在技術基準測試中表現卓越。

大型語言模型

Safetensors 英語

SVECTOR-CORPORATION

Qwen3 30B A3B Gptq 8bit

Qwen3 30B A3B是一個採用GPTQ方法進行8位量化處理的大語言模型，適用於高效推理場景。

大型語言模型

Whisper Large V3 Turbo Quantized.w4a16

基於openai/whisper-large-v3-turbo的INT4權重量化版本，支持高效音頻轉文本任務

Transformers 英語

Orpheus 3b 0.1 Ft Q4 K M GGUF

Orpheus-3B-0.1-FT 的 GGUF 量化版本，適用於高效推理

大型語言模型英語

Llama 2 7b Chat Hf GGUF

Llama 2是由Meta開發的7B參數規模的大語言模型，提供多種量化版本以適應不同硬件需求。

大型語言模型英語

Deepseek R1 Medical COT GGUF

DeepSeek-R1-Medical-COT 是一個專注於醫學領域的思維鏈推理模型，提供多種量化版本以適應不同硬件需求。

大型語言模型英語

Qwq 32B Bnb 4bit

QwQ-32B的4位量化版本，使用Bitsandbytes技術進行優化，適用於資源受限環境下的高效推理

大型語言模型

Qwen2.5 VL 7B Instruct FP8 Dynamic

Qwen2.5-VL-7B-Instruct的FP8量化版本，通過vLLM支持高效視覺-文本推理

文本生成圖像

Transformers 英語

Deepseek R1 Distill Llama 70B FP8 Dynamic

DeepSeek-R1-Distill-Llama-70B的FP8量化版本，通過減少權重和激活的位數來優化推理性能

大型語言模型

Molmo 7B D 0924 NF4

Molmo-7B-D-0924的4Bit量化版本，通過NF4量化策略降低顯存佔用，適用於顯存受限環境。

圖像生成文本

Pixtral 12b FP8 Dynamic

pixtral-12b-FP8-dynamic 是 mistral-community/pixtral-12b 的量化版本，通過將權重和激活量化為 FP8 數據類型，減少磁盤大小和 GPU 內存需求約 50%，適用於多種語言的商業和研究用途。

文本生成圖像

Safetensors 支持多種語言

QQQ Llama 3 8b G128

這是一個基於Llama-3-8b模型進行INT4量化的版本，採用QQQ量化技術，組大小為128，針對硬件優化。

大型語言模型

Llama 3 8B Instruct GPTQ 4 Bit

這是一個基於Meta Llama 3構建的4位量化GPTQ模型，由Astronomer量化，可在低VRAM設備上高效運行。

大型語言模型

Moritzlaurer Roberta Base Zeroshot V2.0 C Onnx

這是MoritzLaurer/roberta-base-zeroshot-v2.0-c模型的ONNX格式轉換版本，適用於零樣本分類任務。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase