FLUX.1-dev-edit-v0オープンソース画像編集モデル - 無料で様々なスタイル変換とコンテンツ修正を実現

ホーム

FLUX.1 Dev Edit V0

sayakpaulによって開発

Flux制御フレームワークに基づく画像編集モデルで、様々なスタイル変換と内容修正をサポート

画像生成オープンソースライセンス:その他 #制御可能な画像編集 #スタイル変換 #条件付き拡散モデル

ダウンロード数 114

リリース時間 : 1/18/2025

モデル概要

FLUX.1-devは拡散モデルに基づく画像編集システムで、テキストプロンプトに従って入力画像のスタイル変換や内容編集が可能です。このモデルはFlux制御フレームワークで微調整されており、様々な画像編集タスクをサポートします。

モデル特徴

精密画像編集

テキストプロンプトに基づき画像の特定要素を精密に修正可能（物体の色変更や季節シーンの変換など）

スタイル変換

日本の木版画や厚塗り油絵など、様々な芸術スタイルへの変換をサポート

効率的な推論

Turbo LoRA技術により8ステップの高速推論を実現しつつ画像品質を維持

柔軟な制御

ガイダンス係数などのパラメータで編集強度を調整可能、様々なニーズに対応

モデル能力

画像スタイル変換

物体属性変更

シーン内容編集

芸術効果生成

使用事例

クリエイティブデザイン

芸術スタイル変換

普通の写真を伝統的な日本の木版画スタイルに変換

https://huggingface.co/datasets/sayakpaul/sample-datasets/resolve/main/flux-edit-artifacts/edited_car.jpg

季節シーン変換

普通の風景写真を冬の雪景色に変換

https://huggingface.co/datasets/sayakpaul/sample-datasets/resolve/main/flux-edit-artifacts/edited_green_creature.jpg

製品デザイン

製品外観変更

製品の色や材質効果を迅速に変更

https://huggingface.co/datasets/sayakpaul/sample-datasets/resolve/main/flux-edit-artifacts/edited_mushroom.jpg

🚀 Flux Edit

このプロジェクトは、画像編集のためにblack-forest-labs/FLUX.1-dev と TIGER-Lab/OmniEdit-Filtered-1.2M で学習された制御重みを提供します。微調整にはFlux Control framework を使用しています。

🚀 クイックスタート

これらの制御重みは、画像編集に使用できます。以下に、推論と高速化の方法を紹介します。

✨ 主な機能

画像編集のための制御重みを提供します。
Flux Control framework を使用した微調整が可能です。
推論の高速化や量子化もサポートしています。

💻 使用例

基本的な使用法

from diffusers import FluxControlPipeline, FluxTransformer2DModel
from diffusers.utils import load_image
import torch 

path = "sayakpaul/FLUX.1-dev-edit-v0" 
edit_transformer = FluxTransformer2DModel.from_pretrained(path, torch_dtype=torch.bfloat16)
pipeline = FluxControlPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev", transformer=edit_transformer, torch_dtype=torch.bfloat16
).to("cuda")

url = "https://huggingface.co/datasets/sayakpaul/sample-datasets/resolve/main/flux-edit-artifacts/assets/mushroom.jpg"
image = load_image(url) # resize as needed.
print(image.size)

prompt = "turn the color of mushroom to gray"
image = pipeline(
    control_image=image,
    prompt=prompt,
    guidance_scale=30., # change this as needed.
    num_inference_steps=50, # change this as needed.
    max_sequence_length=512,
    height=image.height,
    width=image.width,
    generator=torch.manual_seed(0)
).images[0]
image.save("edited_image.png")

高度な使用法

Turbo LoRAを使用して推論を高速化する例です。

from diffusers import FluxControlPipeline, FluxTransformer2DModel
from diffusers.utils import load_image
from huggingface_hub import hf_hub_download
import torch

path = "sayakpaul/FLUX.1-dev-edit-v0"
edit_transformer = FluxTransformer2DModel.from_pretrained(path, torch_dtype=torch.bfloat16)
pipeline = FluxControlPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev", transformer=edit_transformer, torch_dtype=torch.bfloat16
).to("cuda")

# load the turbo LoRA
pipeline.load_lora_weights(
    hf_hub_download("ByteDance/Hyper-SD", "Hyper-FLUX.1-dev-8steps-lora.safetensors"), adapter_name="hyper-sd"
)
pipeline.set_adapters(["hyper-sd"], adapter_weights=[0.125])


url = "https://huggingface.co/datasets/sayakpaul/sample-datasets/resolve/main/flux-edit-artifacts/assets/mushroom.jpg"
image = load_image(url) # resize as needed.
print(image.size)

prompt = "turn the color of mushroom to gray"
image = pipeline(
    control_image=image,
    prompt=prompt,
    guidance_scale=30., # change this as needed.
    num_inference_steps=8, # change this as needed.
    max_sequence_length=512,
    height=image.height,
    width=image.width,
    generator=torch.manual_seed(0)
).images[0]
image.save("edited_image.png")

推論速度の比較

50 steps	8 steps

guidance_scaleの影響

プロンプト	Collage (gs: 10)	Collage (gs: 20)	Collage (gs: 30)	Collage (gs: 40)
Give this the look of a traditional Japanese woodblock print.
transform the setting to a winter scene
turn the color of mushroom to gray

🔧 技術詳細

学習詳細

微調整のコードベースはこちらにあります。学習のハイパーパラメータは以下の通りです。

1GPUあたりのバッチサイズ: 4
勾配蓄積ステップ: 4
ガイダンススケール: 30
BF16混合精度
AdamWオプティマイザー (8bit from bitsandbytes)
固定学習率 5e-5
重み減衰 1e-6
学習ステップ数 20000

学習は8xH100のノードを使用して行われました。

線形補間を行うための簡略化されたフローメカニズムの疑似コードは以下の通りです。

sigmas = torch.rand(batch_size)
timesteps = (sigmas * noise_scheduler.config.num_train_timesteps).long()
...

noisy_model_input = (1.0 - sigmas) * pixel_latents + sigmas * noise

ここで、pixel_latents はソース画像から計算され、noise はガウス分布からサンプリングされます。詳細はリポジトリを参照してください。