# 低VRAM最適化

Hidream I1
その他
HiDream-I1-Fullに基づくControlNet PEFT LoRAモデルで、テキストから画像への変換と画像から画像への変換をサポートします。
画像生成
H
ControlNetLoRA
605
0
Smolvlm Instruct GGUF
Apache-2.0
SmolVLMはコンパクトなオープンソースのマルチモーダルモデルで、画像とテキストの入力を受け取り、テキスト出力を生成することができます。効率性を重視して設計されており、デバイス端のアプリケーションに適しています。
画像生成テキスト Transformers 英語
S
Mungert
1,023
2
Llama Joycaption Beta One Hf Llava GGUF
コミュニティ向けに無料で公開された画像キャプション付け用の視覚言語モデル(VLM)で、拡散モデルの学習に使用でき、多様な画像スタイルと内容に対応しています。
画像生成テキスト Transformers
L
Mungert
2,968
2
Mochi Lora
Apache-2.0
Mochi-1プレビューモデルを基にLoRAでファインチューニングしたバージョンで、テキストからビデオ生成タスクに特化
テキスト生成ビデオ
M
weathon
112
1
Qwen2.5 Omni 7B AWQ
その他
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、動画を含む複数のモダリティを認識し、ストリーミング方式でテキストと自然な音声応答を生成できます。
マルチモーダル融合 Transformers 英語
Q
Qwen
77
8
LTX Video 0.9.7 Dev
その他
DiTアーキテクチャを基にした初のリアルタイム高品質動画生成モデル。1216×704解像度の動画を30fpsで生成可能
動画処理 英語
L
Lightricks
477
7
GLM4 32B Neon V2
MIT
GLM-4-32B-0414を基にしたロールプレイ用微調整バージョンで、優れた性能、個性的なキャラクター、多様なスタイル、美しい文章表現が特徴です。
大規模言語モデル Transformers 英語
G
allura-org
171
7
Orpheus Awq
Apache-2.0
Orpheus-3b FTの4ビットAWQ量子化バージョンで、テキストから音声への変換タスクに最適化されており、音声クローン機能をサポートしています。
音声合成 英語
O
YaTharThShaRma999
48
3
Deepseek V3 0324 GGUF UD
MIT
DeepSeek-V3-0324 は Unsloth が提供する動的量子化バージョンで、llama.cpp、LMStudio などの推論フレームワークで実行可能です。
大規模言語モデル 英語
D
unsloth
6,270
6
Auraflow DomoKun LoRA Rank8
Apache-2.0
fal/AuraFlowでトレーニングされた標準PEFT LoRAモデルで、ドモ君のイメージを生成するテキストto画像および画像to画像タスクに特化しています。
画像生成
A
bghira
532
0
FLUX Hyperscale Fused
その他
FLUXは5つの高品質微調整アダプターを融合したテキスト生成画像モデルで、多様なスタイルのリアルな画像を生成可能
画像生成 英語
F
minpeter
131
2
Deepseek V3 0324 GGUF
MIT
現在のV3-0324モデルはこのサイズカテゴリで最高性能の量子化バージョンであり、Q8_0に近い性能を維持しながら大幅にサイズを削減
大規模言語モデル その他
D
ubergarm
1,712
20
Wan2.1 Fun 1.3B Control
Apache-2.0
Wan2.1-Fun-1.3Bはテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭フレーム・末尾フレーム予測をサポートしています。
テキスト生成ビデオ 複数言語対応
W
alibaba-pai
22.19k
97
Origami WanLora
Apache-2.0
これはWan2.1-T2V-14Bモデルを基にしたLoRAアダプターで、折紙スタイルの動画を生成します。
テキスト生成ビデオ 英語
O
shauray
50
2
Phi3 Uncensored Chat
MIT
microsoft/phi-3-mini-4k-instructを基に微調整・最適化したバージョンで、様々なキャラクターとのロールプレイ対話に特化
大規模言語モデル Transformers 英語
P
luvGPT
77
6
Wan2.1 Fun 1.3B InP
Apache-2.0
Wan2.1-Fun-1.3BはアリババPAIチームによって開発されたテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭・末尾フレーム予測をサポートしています。
テキスト生成ビデオ 複数言語対応
W
alibaba-pai
6,753
25
Steamboat Willie 1.3b
蒸気船ウィリーのアニメーションクリップでトレーニングされたLoRAモデルで、黄金時代のアニメスタイルのテキストからビデオコンテンツを生成するために使用されます
テキスト生成ビデオ
S
benjamin-paine
90
3
SDXL GGUF
MIT
Stable Diffusion XLのGGUFフォーマット量子化バージョン、異なるハードウェア構成に適応するため複数の量子化レベルを提供。
テキスト生成画像
S
HyperX-Sentience
2,189
5
Cogview4 6B
Apache-2.0
CogView4-6BはGLM-4-9Bベースモデルを基にしたテキスト生成画像モデルで、中国語と英語をサポートし、高品質な画像を生成できます。
テキスト生成画像 複数言語対応
C
THUDM
333.85k
216
Qwenfluxprompt
Apache-2.0
これはWan2.1 14B動画生成モデル向けにトレーニングされたLoRAで、テキストから動画および画像から動画へのタスクに適しています。
動画処理 複数言語対応
Q
mam33
25
0
Cat Text To Video 2.3b
Apache-2.0
条件強化型テキスト動画生成モデル。時系列条件変換器で生成シーンを拡張しスムーズな遷移を実現、プロンプト補間機能をサポート
テキスト生成ビデオ 英語
C
motexture
25
1
Deepseek R1 AWQ
MIT
DeepSeek R1モデルのAWQ量子化バージョン、float16オーバーフロー問題を最適化し、効率的な推論デプロイをサポート
大規模言語モデル Transformers 複数言語対応
D
cognitivecomputations
30.46k
77
Minicpm O 2 6 Int4
MiniCPM-o 2.6のint4量子化バージョンで、GPUのVRAM使用量を大幅に削減し、マルチモーダル処理能力をサポートします。
テキスト生成オーディオ Transformers その他
M
openbmb
4,249
42
Shu Qi
FLUX.1-devは安定拡散(Stable Diffusion)技術に基づくテキスト生成画像モデルで、LoRAファインチューニングをサポートし、クリエイティブな画像生成タスクに適しています。
画像生成
S
Jonny001
425
2
Illustrious
Apache-2.0
Illustriousモデルはテキストから画像を生成するAIモデルで、高品質な画像生成をサポートします。
テキスト生成画像 英語
I
calcuis
3,975
9
Controlnet Kohaku Canny Sdxl Fp16
Stable Diffusion XLベースのControlNetモデルで、Cannyエッジ検出による精密な画像生成制御に特化
画像生成
C
r3gm
19
0
Hunyuanvideo Gguf
その他
Tencent幻影動画モデルのGGUF量子化バージョン、ComfyUI専用設計、テキストから動画生成タスク用
テキスト生成ビデオ
H
city96
6,142
162
Omnigen V1 Bnb 8bit
MIT
OmniGen-v1の8ビット量子化バージョンで、テキストから画像および画像から画像のタスクに適しており、マルチモーダル入力をサポートします。
テキスト生成画像
O
gryan
76
0
FLUX.1 Fill Dev GGUF
その他
FLUX.1-Fill-dev はFLUX技術を基にしたテキストから画像を生成するモデルで、画像充填タスクに特化しています。
テキスト生成画像 英語
F
second-state
691
3
Stable Diffusion V3 5 Large GGUF
その他
Stable Diffusion 3.5大規模モデルはマルチモーダル拡散トランスフォーマー(MMDiT)を採用したテキストから画像生成モデルで、画像品質、文字レイアウト、複雑なプロンプト理解、リソース効率の面で大幅な改善が見られます。
テキスト生成画像 英語
S
gpustack
13.33k
7
Aria Sequential Mlp Bnb Nf4
Apache-2.0
Aria-sequential_mlpベースのBitsAndBytes NF4量子化バージョンで、画像テキストからテキストタスクに適しており、VRAM要件は約15.5GBです。
画像生成テキスト Transformers
A
leon-se
76
11
Flux Actors Face Inset Cig Cards LoKr
その他
FLUX.1-devを基にしたLyCORISアダプターで、テキストから画像を生成するタスクに特化しており、特に職場環境での使用に適しています。
画像生成
F
davidrd123
20
1
Flux.1 Lite 8B Alpha
その他
Flux.1ライト版はFLUX.1-devモデルから蒸留された8BパラメータのTransformerモデルで、同じ精度(bfloat16)を維持しながら、メモリ使用量を7GB削減し、実行速度を23%向上させています。
テキスト生成画像
F
Freepik
1,810
415
Flux Fusion V2 4step Merge Gguf Nf4
その他
Schnell、微調整版Dev、Hyperを統合したテキストから画像を生成するモデル。推奨ステップ数は4-8ステップで、4ステップ時でも品質が大幅に向上
テキスト生成画像 英語
F
Anibaaal
1,212
10
Seba Ai
MIT
CogVideoX-5bベースの動画生成モデルで、テキスト記述から高品質な動画コンテンツを生成可能
テキスト生成ビデオ 英語
S
GlitchXRiot
13
2
Cogvideox 2b
Apache-2.0
CogVideoXは清影のビデオ生成モデルのオープンソース版で、2Bバージョンは入門モデルとして互換性と実行・二次開発コストのバランスが取れています。
テキスト生成ビデオ 英語
C
rttrsabc
22
1
Chromafur Alpha Gguf
その他
ChromaFur Alphaはテキストから画像を生成するモデルで、GGUFフォーマットに変換されており、ローエンドGPUや高速ロードを好むユーザーに適しています。
画像生成
C
WWizrd
13
1
Cogvideox 2b
Apache-2.0
CogVideoXは清影に由来するオープンソースの動画生成モデルで、2Bバージョンは入門モデルとして互換性と実行・二次開発コストのバランスが取れています。
テキスト生成ビデオ 英語
C
THUDM
40.55k
324
Neuraldaredevil 8B Abliterated GGUF
その他
これはNeuralDaredevil-8B-abliteratedモデルを量子化処理したバージョンで、さまざまな量子化タイプのモデルファイルを提供し、異なるハードウェア条件とニーズを持つユーザーに適しています。
大規模言語モデル
N
bartowski
577
11
Herobophades 3x7B
Apache-2.0
HeroBophades-3x7Bはmergekitを使用して構築された実験的な専門家混合(LLM)モデルで、12GB VRAMのGPUで4ビットモードで動作するように設計されています。
大規模言語モデル Transformers
H
nbeerbower
20
3
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase