低顯存優化

# 低顯存優化

基於HiDream-I1-Full的ControlNet PEFT LoRA模型，支持文本到圖像和圖像到圖像的轉換

Smolvlm Instruct GGUF

SmolVLM是一個緊湊的開源多模態模型，能夠接受圖像和文本輸入並生成文本輸出，專為高效設計，適用於設備端應用。

圖像生成文本

Transformers 英語

Llama Joycaption Beta One Hf Llava GGUF

一個專為社區免費開放的圖像字幕視覺語言模型（VLM），可用於訓練擴散模型，支持多樣化的圖像風格和內容。

圖像生成文本

基於Mochi-1預覽模型進行LoRA微調的版本，專注於文本到視頻生成任務

文本生成視頻

Qwen2.5 Omni 7B AWQ

Qwen2.5-Omni是一款端到端多模態模型，能夠感知包括文本、圖像、音頻和視頻在內的多種模態，同時以流式方式生成文本和自然語音響應。

多模態融合

Transformers 英語

LTX Video 0.9.7 Dev

首個基於DiT架構的即時高質量視頻生成模型，能以30幀/秒生成1216×704分辨率視頻

視頻處理英語

GLM4 32B Neon V2

基於 GLM-4-32B-0414 的角色扮演微調版本，表現優秀，個性鮮明，風格多樣，文筆優美。

大型語言模型

Transformers 英語

Orpheus-3b FT的4位AWQ量化版本，專為文本轉語音任務優化，支持語音克隆功能。

語音合成英語

YaTharThShaRma999

Deepseek V3 0324 GGUF UD

DeepSeek-V3-0324 是由 Unsloth 提供的動態量化版本，支持在 llama.cpp、LMStudio 等推理框架中運行。

大型語言模型英語

Auraflow DomoKun LoRA Rank8

基於fal/AuraFlow訓練的標準PEFT LoRA模型，專注於生成多摩君形象的文生圖和圖生圖任務。

FLUX Hyperscale Fused

FLUX是一個融合了5個高質量微調適配器的文本生成圖像模型，能夠生成多種風格的逼真圖像

圖像生成英語

Deepseek V3 0324 GGUF

當前V3-0324模型在該尺寸類別中表現最佳的量化版本，在保持性能接近Q8_0的同時顯著減小了體積

大型語言模型其他

Wan2.1 Fun 1.3B Control

Wan2.1-Fun-1.3B是一個文本生成視頻的模型，支持多分辨率訓練及首尾幀預測。

文本生成視頻支持多種語言

Origami WanLora

這是一個基於Wan2.1-T2V-14B模型的LoRA適配器，用於生成摺紙風格的視頻。

文本生成視頻英語

Phi3 Uncensored Chat

基於microsoft/phi-3-mini-4k-instruct微調優化的版本，專為與各種角色進行角色扮演對話而設計

大型語言模型

Transformers 英語

Wan2.1 Fun 1.3B InP

Wan2.1-Fun-1.3B是由阿里巴巴PAI團隊開發的文本生成視頻模型，支持多分辨率訓練及首尾幀預測。

文本生成視頻支持多種語言

Steamboat Willie 1.3b

基於蒸汽船威利動畫片段訓練的LoRA模型，用於生成黃金時代動畫風格的文本到視頻內容

文本生成視頻

Stable Diffusion XL的GGUF格式量化版本，提供不同量化級別以適應不同硬件配置。

文本生成圖像

HyperX-Sentience

CogView4-6B 是一個基於 GLM-4-9B 基礎模型的文生圖模型，支持中文和英文，能夠生成高質量的圖像。

文本生成圖像支持多種語言

這是一個為Wan2.1 14B視頻生成模型訓練的LoRA，適用於文本轉視頻和圖像轉視頻任務。

視頻處理支持多種語言

Deepseek R1 AWQ

DeepSeek R1模型的AWQ量化版本，優化了float16溢出問題，支持高效推理部署

大型語言模型

Transformers 支持多種語言

cognitivecomputations

Cat Text To Video 2.3b

基於條件增強的文本生成視頻模型，通過時序條件變換器擴展生成片段並實現平滑過渡，支持提示詞插值功能

文本生成視頻英語

Minicpm O 2 6 Int4

MiniCPM-o 2.6的int4量化版本，顯著降低GPU顯存佔用，支持多模態處理能力。

文本生成音頻

Transformers 其他

FLUX.1-dev 是一個基於穩定擴散（Stable Diffusion）技術的文本生成圖像模型，支持LoRA微調，適用於創意圖像生成任務。

Illustrious模型是一個文本生成圖像的AI模型，支持通過文本描述生成高質量圖像。

文本生成圖像英語

Controlnet Kohaku Canny Sdxl Fp16

基於Stable Diffusion XL的ControlNet模型，專注於通過Canny邊緣檢測實現精確的圖像生成控制

Hunyuanvideo Gguf

騰訊幻影視頻模型的GGUF量化版本，專為ComfyUI設計，用於文本生成視頻任務

文本生成視頻

Omnigen V1 Bnb 8bit

OmniGen-v1的8比特量化版本，適用於文生圖和圖生圖任務，支持多模態輸入。

文本生成圖像

FLUX.1 Fill Dev GGUF

FLUX.1-Fill-dev 是一個基於 FLUX 技術的文本生成圖像模型，專注於圖像填充任務。

文本生成圖像英語

Stable Diffusion V3 5 Large GGUF

Stable Diffusion 3.5大模型是一款多模態擴散變換器(MMDiT)文生圖模型，在圖像質量、文字排版、複雜提示詞理解和資源效率方面均有顯著提升。

文本生成圖像英語

Aria Sequential Mlp Bnb Nf4

基於Aria-sequential_mlp的BitsAndBytes NF4量化版本，適用於圖像文本到文本任務，顯存需求約15.5 GB。

圖像生成文本

Flux Actors Face Inset Cig Cards LoKr

基於FLUX.1-dev的LyCORIS適配器，專注於文本生成圖像任務，特別適合工作環境使用。

Flux.1 Lite 8B Alpha

Flux.1精簡版是從FLUX.1-dev模型蒸餾而來的8B參數Transformer模型，在保持相同精度（bfloat16）的同時，內存佔用減少7GB，運行速度提升23%。

文本生成圖像

Flux Fusion V2 4step Merge Gguf Nf4

由Schnell、微調版Dev和Hyper合併而成的文本生成圖像模型，推薦步數為4-8步，4步時質量顯著提升

文本生成圖像英語

基於CogVideoX-5b的視頻生成模型，能夠根據文本描述生成高質量視頻內容

文本生成視頻英語

CogVideoX是源自清影的視頻生成模型的開源版本，2B版本為入門級模型，平衡兼容性，運行和二次開發成本低。

文本生成視頻英語

Chromafur Alpha Gguf

ChromaFur Alpha 是一個文本生成圖像的模型，已轉換為GGUF格式，適用於低端GPU或偏好快速加載的用戶。

CogVideoX是源自清影的開源視頻生成模型，2B版本是入門級模型，平衡兼容性，運行和二次開發成本低。

文本生成視頻英語

Neuraldaredevil 8B Abliterated GGUF

這是對NeuralDaredevil-8B-abliterated模型進行量化處理的版本，提供了多種量化類型的模型文件，適用於不同硬件條件和需求的用戶。

大型語言模型

Herobophades 3x7B

HeroBophades-3x7B是一個基於mergekit構建的實驗性專家混合(LLM)模型，設計為在12GB顯存的GPU上以4位模式運行。

大型語言模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase