モデル選定

低VRAM最適化

# 低VRAM最適化

HiDream-I1-Fullに基づくControlNet PEFT LoRAモデルで、テキストから画像への変換と画像から画像への変換をサポートします。

Smolvlm Instruct GGUF

SmolVLMはコンパクトなオープンソースのマルチモーダルモデルで、画像とテキストの入力を受け取り、テキスト出力を生成することができます。効率性を重視して設計されており、デバイス端のアプリケーションに適しています。

画像生成テキスト

Transformers 英語

Llama Joycaption Beta One Hf Llava GGUF

コミュニティ向けに無料で公開された画像キャプション付け用の視覚言語モデル（VLM）で、拡散モデルの学習に使用でき、多様な画像スタイルと内容に対応しています。

画像生成テキスト

Mochi-1プレビューモデルを基にLoRAでファインチューニングしたバージョンで、テキストからビデオ生成タスクに特化

テキスト生成ビデオ

Qwen2.5 Omni 7B AWQ

Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、動画を含む複数のモダリティを認識し、ストリーミング方式でテキストと自然な音声応答を生成できます。

マルチモーダル融合

Transformers 英語

LTX Video 0.9.7 Dev

DiTアーキテクチャを基にした初のリアルタイム高品質動画生成モデル。1216×704解像度の動画を30fpsで生成可能

動画処理英語

GLM4 32B Neon V2

GLM-4-32B-0414を基にしたロールプレイ用微調整バージョンで、優れた性能、個性的なキャラクター、多様なスタイル、美しい文章表現が特徴です。

大規模言語モデル

Transformers 英語

Orpheus-3b FTの4ビットAWQ量子化バージョンで、テキストから音声への変換タスクに最適化されており、音声クローン機能をサポートしています。

音声合成英語

YaTharThShaRma999

Deepseek V3 0324 GGUF UD

DeepSeek-V3-0324 は Unsloth が提供する動的量子化バージョンで、llama.cpp、LMStudio などの推論フレームワークで実行可能です。

大規模言語モデル英語

Auraflow DomoKun LoRA Rank8

fal/AuraFlowでトレーニングされた標準PEFT LoRAモデルで、ドモ君のイメージを生成するテキストto画像および画像to画像タスクに特化しています。

FLUX Hyperscale Fused

FLUXは5つの高品質微調整アダプターを融合したテキスト生成画像モデルで、多様なスタイルのリアルな画像を生成可能

画像生成英語

Deepseek V3 0324 GGUF

現在のV3-0324モデルはこのサイズカテゴリで最高性能の量子化バージョンであり、Q8_0に近い性能を維持しながら大幅にサイズを削減

大規模言語モデルその他

Wan2.1 Fun 1.3B Control

Wan2.1-Fun-1.3Bはテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭フレーム・末尾フレーム予測をサポートしています。

テキスト生成ビデオ複数言語対応

Origami WanLora

これはWan2.1-T2V-14Bモデルを基にしたLoRAアダプターで、折紙スタイルの動画を生成します。

テキスト生成ビデオ英語

Phi3 Uncensored Chat

microsoft/phi-3-mini-4k-instructを基に微調整・最適化したバージョンで、様々なキャラクターとのロールプレイ対話に特化

大規模言語モデル

Transformers 英語

Wan2.1 Fun 1.3B InP

Wan2.1-Fun-1.3BはアリババPAIチームによって開発されたテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭・末尾フレーム予測をサポートしています。

テキスト生成ビデオ複数言語対応

Steamboat Willie 1.3b

蒸気船ウィリーのアニメーションクリップでトレーニングされたLoRAモデルで、黄金時代のアニメスタイルのテキストからビデオコンテンツを生成するために使用されます

テキスト生成ビデオ

Stable Diffusion XLのGGUFフォーマット量子化バージョン、異なるハードウェア構成に適応するため複数の量子化レベルを提供。

テキスト生成画像

HyperX-Sentience

CogView4-6BはGLM-4-9Bベースモデルを基にしたテキスト生成画像モデルで、中国語と英語をサポートし、高品質な画像を生成できます。

テキスト生成画像複数言語対応

これはWan2.1 14B動画生成モデル向けにトレーニングされたLoRAで、テキストから動画および画像から動画へのタスクに適しています。

動画処理複数言語対応

Cat Text To Video 2.3b

条件強化型テキスト動画生成モデル。時系列条件変換器で生成シーンを拡張しスムーズな遷移を実現、プロンプト補間機能をサポート

テキスト生成ビデオ英語

Deepseek R1 AWQ

DeepSeek R1モデルのAWQ量子化バージョン、float16オーバーフロー問題を最適化し、効率的な推論デプロイをサポート

大規模言語モデル

Transformers 複数言語対応

cognitivecomputations

Minicpm O 2 6 Int4

MiniCPM-o 2.6のint4量子化バージョンで、GPUのVRAM使用量を大幅に削減し、マルチモーダル処理能力をサポートします。

テキスト生成オーディオ

Transformers その他

FLUX.1-devは安定拡散（Stable Diffusion）技術に基づくテキスト生成画像モデルで、LoRAファインチューニングをサポートし、クリエイティブな画像生成タスクに適しています。

Illustriousモデルはテキストから画像を生成するAIモデルで、高品質な画像生成をサポートします。

テキスト生成画像英語

Controlnet Kohaku Canny Sdxl Fp16

Stable Diffusion XLベースのControlNetモデルで、Cannyエッジ検出による精密な画像生成制御に特化

Hunyuanvideo Gguf

Tencent幻影動画モデルのGGUF量子化バージョン、ComfyUI専用設計、テキストから動画生成タスク用

テキスト生成ビデオ

Omnigen V1 Bnb 8bit

OmniGen-v1の8ビット量子化バージョンで、テキストから画像および画像から画像のタスクに適しており、マルチモーダル入力をサポートします。

テキスト生成画像

FLUX.1 Fill Dev GGUF

FLUX.1-Fill-dev はFLUX技術を基にしたテキストから画像を生成するモデルで、画像充填タスクに特化しています。

テキスト生成画像英語

Stable Diffusion V3 5 Large GGUF

Stable Diffusion 3.5大規模モデルはマルチモーダル拡散トランスフォーマー(MMDiT)を採用したテキストから画像生成モデルで、画像品質、文字レイアウト、複雑なプロンプト理解、リソース効率の面で大幅な改善が見られます。

テキスト生成画像英語

Aria Sequential Mlp Bnb Nf4

Aria-sequential_mlpベースのBitsAndBytes NF4量子化バージョンで、画像テキストからテキストタスクに適しており、VRAM要件は約15.5GBです。

画像生成テキスト

Flux Actors Face Inset Cig Cards LoKr

FLUX.1-devを基にしたLyCORISアダプターで、テキストから画像を生成するタスクに特化しており、特に職場環境での使用に適しています。

Flux.1 Lite 8B Alpha

Flux.1ライト版はFLUX.1-devモデルから蒸留された8BパラメータのTransformerモデルで、同じ精度（bfloat16）を維持しながら、メモリ使用量を7GB削減し、実行速度を23％向上させています。

テキスト生成画像

Flux Fusion V2 4step Merge Gguf Nf4

Schnell、微調整版Dev、Hyperを統合したテキストから画像を生成するモデル。推奨ステップ数は4-8ステップで、4ステップ時でも品質が大幅に向上

テキスト生成画像英語

CogVideoX-5bベースの動画生成モデルで、テキスト記述から高品質な動画コンテンツを生成可能

テキスト生成ビデオ英語

CogVideoXは清影のビデオ生成モデルのオープンソース版で、2Bバージョンは入門モデルとして互換性と実行・二次開発コストのバランスが取れています。

テキスト生成ビデオ英語

Chromafur Alpha Gguf

ChromaFur Alphaはテキストから画像を生成するモデルで、GGUFフォーマットに変換されており、ローエンドGPUや高速ロードを好むユーザーに適しています。

CogVideoXは清影に由来するオープンソースの動画生成モデルで、2Bバージョンは入門モデルとして互換性と実行・二次開発コストのバランスが取れています。

テキスト生成ビデオ英語

Neuraldaredevil 8B Abliterated GGUF

これはNeuralDaredevil-8B-abliteratedモデルを量子化処理したバージョンで、さまざまな量子化タイプのモデルファイルを提供し、異なるハードウェア条件とニーズを持つユーザーに適しています。

大規模言語モデル

Herobophades 3x7B

HeroBophades-3x7Bはmergekitを使用して構築された実験的な専門家混合(LLM)モデルで、12GB VRAMのGPUで4ビットモードで動作するように設計されています。

大規模言語モデル

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase