URAEオープンソース画像生成モデル - データパラメータを最適化し、限られたリソースで高品質・高解像度の画像を生成する

URAE

Huage001によって開発

URAEは、高解像度画像生成に特化したモデルで、データとパラメータの効率化を通じて、限られたリソースで高品質な画像生成を実現します。

画像生成オープンソースライセンス:Apache-2.0 #高解像度画像生成 #軽量アダプター #合成データ訓練

ダウンロード数 110

リリース時間 : 3/19/2025

モデル概要

URAEは、データとパラメータの効率性という2つの重要な視点から、高解像度画像生成の実際の問題を探求し、URAEという名の超解像度適応の重要な基準を提案しました。これにより、限られた訓練データと計算リソースで高品質な高解像度画像生成が可能になります。

モデル特徴

高品質な高解像度生成

FLUXを利用して高解像度画像を生成でき、コードの最小限の変更ですむ。

訓練が容易

FLUX1.1 Pro Ultraからの少量の合成データを使用して軽量アダプターを訓練する。

データ効率最適化

合成データによって訓練の収束を大幅に促進する。

パラメータ効率最適化

重み行列の二次成分を調整する方が、広く使用されている低ランクアダプターよりも効果的である。

モデル能力

2K解像度画像生成

4K解像度画像生成

テキストから画像生成

使用事例

クリエイティブデザイン

高解像度アート制作

高品質なアート作品を生成し、デジタルアートやイラストなどの分野に適しています。

2Kまたは4K解像度のアート作品を生成する

メディアコンテンツ制作

高解像度背景生成

映画やゲームなどのメディアコンテンツ用の高解像度背景画像を生成します。

専門用途に適した高解像度画像を生成する

🚀 URAE: Your Free FLUX Pro Ultra

Ultra-Resolution Adaptation with Ease（簡単に超高解像度適応）は、少量のコード変更で高解像度画像を生成することができる手法です。この手法は、データとパラメータの効率性の観点から、超高解像度適応のための一連の重要なガイドラインを提案しています。

🚀 クイックスタート

前提条件

もしまだインストールしていない場合は、PyTorch、diffusers、transformers、およびpeftをインストールしてください。

リポジトリのクローン

git clone https://github.com/Huage001/URAE.git
cd URAE

コードの変更

import torch
- from diffusers import FluxPipeline
+ from pipeline_flux import FluxPipeline
+ from transformer_flux import FluxTransformer2DModel

bfl_repo = "black-forest-labs/FLUX.1-dev"
+ transformer = FluxTransformer2DModel.from_pretrained(bfl_repo, subfolder="transformer", torch_dtype=torch.bfloat16)
- pipe = FluxPipeline.from_pretrained(bfl_repo, torch_dtype=torch.bfloat16)
+ pipe = FluxPipeline.from_pretrained(bfl_repo, transformer=transformer, torch_dtype=torch.bfloat16)
pipe.enable_model_cpu_offload() #save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power

+ pipe.load_lora_weights("Huage001/URAE", weight_name="urae_2k_adapter.safetensors")

prompt = "An astronaut riding a green horse"
image = pipe(
    prompt,
-    height=1024,
-    width=1024,
+    height=2048,
+    width=2048,
    guidance_scale=3.5,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-urae.png")

⚠️ FLUXは2K解像度で動作するために少なくとも28GBのGPUメモリが必要です。2Kと4Kの両方を含むURAEの全機能を使用するには、48GBのGPUが推奨されます。我々は積極的にモデルの軽量化戦略をURAEに統合しています！もし良いアイデアがあれば、自由にPRを提出してください！

Huggingface Spaceで試す

コードを実行したくない場合は、心配しないでください！Huggingface Spaceでモデルを試してみてください。

URAE w. FLUX1.schnell (高速)
URAE w. FLUX1.dev (高品質)

✨ 主な機能

使いやすい高品質かつ高解像度の画像生成😊：Ultra-Resolution Adaptation with Ease（略してURAE）は、FLUXを用いて、最小限のコード変更で高解像度の画像を生成します。
簡単な学習🚀：URAEは、FLUX1.1 Pro Ultraからの少数の合成データを用いて、軽量なアダプタを学習します。

🔥 ニュース

[2025/03/20] URAEの学習と推論のためのモデルとコードを公開しました。

📚 ドキュメント

文章から画像への拡散モデルは近年、著しい進歩を遂げています。しかし、高解像度画像生成のためのモデルの学習は、特に学習データと計算資源が限られている場合、依然として困難です。この論文では、この実用的な問題をデータとパラメータの効率性の2つの重要な観点から検討し、URAEと呼ばれる超高解像度適応のための一連の重要なガイドラインを提案しています。データの効率性に関しては、理論的および実験的に、一部の教師モデルによって生成された合成データが学習の収束を大幅に促進することを示しています。パラメータの効率性に関しては、合成データが利用できない場合、重み行列の一部の成分を調整することが、広く使用されている低ランクアダプタよりも優れており、効率を維持しながら大幅な性能向上をもたらすことを見出しています。さらに、ガイダンス蒸留を利用するモデル（例えばFLUX）に関しては、適応中に分類器フリーガイダンスを無効にする（すなわち、ガイダンススケールを1に設定する）ことが、満足できる性能を得るために重要であることを示しています。広範な実験により、URAEは、わずか3Kのサンプルと2Kの反復で、FLUX1.1 [Pro] Ultraのような最先端の閉ソースモデルと同等の2K生成性能を達成し、4K解像度生成の新しいベンチマークを設定しています。

📦 インストール

このリポジトリをあなたのプロジェクトディレクトリにクローンします。

git clone https://github.com/Huage001/URAE.git
cd URAE

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で公開されています。

著者情報

Ultra-Resolution Adaptation with Ease
Ruonan Yu*, Songhua Liu*, Zhenxiong Tan, and Xinchao Wang
xML Lab, National University of Singapore

リンク集

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご