低顯存佔用

# 低顯存佔用

Jan Nano是基於Qwen3架構微調的小型語言模型，專為本地和嵌入式環境設計，兼具高效性和長上下文處理能力。

大型語言模型

Moondream 2b 2025 04 14 4bit

Moondream是一款輕量級視覺語言模型，專為高效全平臺運行而設計。2025年4月14日發佈的4比特量化版在保持高精度的同時大幅降低內存佔用。

圖像生成文本

GLM 4 32B 0414.w4a16 Gptq

這是一個使用GPTQ方法對GLM-4-32B-0414進行4位量化的模型，適用於消費級硬件。

大型語言模型

Falcon E 3B Base

Falcon-E是由TII開發的1.58比特量化語言模型，採用純Transformer架構，專為高效推理設計

大型語言模型

Phi 4 Mini Instruct Float8dq

Phi-4-mini-instruct模型經torchao進行float8動態激活和權重量化，在H100上實現36%顯存降低和15-20%速度提升，幾乎不影響精度。

大型語言模型

Transformers 其他

Qwen2.5 VL 7B Instruct GPTQ Int4

Qwen2.5-VL-7B-Instruct-GPTQ-Int4是基於Qwen2.5-VL-7B-Instruct模型進行非官方GPTQ-Int4量化的版本，支持圖文到文本的多模態任務。

圖像生成文本

Transformers 支持多種語言

Llama 3 2 3B SFT GGUF

基於Llama-3.2-3B預訓練模型的指令微調版本，採用4比特量化和LoRA技術進行高效微調

大型語言模型英語

Flux.1 Lite是從FLUX.1-dev模型蒸餾而來的80億參數Transformer模型，減少了7GB內存佔用，運行速度提升23%，同時保持原始模型精度。

文本生成圖像

Llama 3.2 3B Instruct FP8 Dynamic

Llama-3.2-3B-Instruct的FP8量化版本，適用於多語言的商業和研究用途，特別適合類似助手的聊天場景。

大型語言模型

Safetensors 支持多種語言

Llama 3.2 11B Vision Instruct FP8 Dynamic

這是一個基於Llama-3.2-11B-Vision-Instruct的量化模型，適用於多語言的商業和研究用途，可用於類似助手的聊天場景。

圖像生成文本

Safetensors 支持多種語言

Pixtral 12b Nf4

基於Mistral社區Pixtral-12B的4位量化版本，專注於圖像文本到文本任務，支持中文描述生成

圖像生成文本

Madlad400 10b Mt Gguf

MADLAD-400-10B-MT 是一個多語言翻譯模型，支持多種語言之間的翻譯任務。

Taiwan Tinyllama V1.0 Chat

這是專為繁體中文優化的Tinyllama持續預訓練版本，基於TinyLlama-1.1B模型，持續預訓練數據集包含約20億個詞元。

大型語言模型

Transformers 中文

基於bigscience/bloom-1b7架構開發的中文語言模型，參數規模14億，通過壓縮詞表降低顯存佔用

大型語言模型

Transformers 中文

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase