butterfly_cropped_uniq1K_512オープンソースGANモデル - 美しい蝶の画像を高速で生成、少量のサンプルでも高効率

ホーム

Butterfly Cropped Uniq1k 512

ceydaによって開発

少量のサンプルでも性能を維持し、短時間でトレーニング可能な軽量GANモデル。蝶の画像生成用

画像生成

Transformers

その他オープンソースライセンス:MIT #少数サンプル画像生成 #高速GANトレーニング #512高解像度

ダウンロード数 32

リリース時間 : 4/14/2022

モデル概要

軽量GANアーキテクチャに基づく蝶画像生成モデル。主に娯楽や学習目的で使用され、単一GPUで高速にトレーニングし高品質な蝶画像を生成可能

モデル特徴

高速トレーニング

単一のRTX-2080 GPUでわずか数時間でゼロから収束可能

少数サンプル学習

100未満のトレーニングサンプルでも一貫した性能を維持

高品質生成

512x512解像度の高品質な蝶画像を生成可能

モデル能力

蝶画像生成

無条件画像合成

使用事例

教育・娯楽

蝶の種類展示

教育現場で様々な種類の蝶を展示する用途

多様な蝶画像を生成

アート創作

アートデザインのための蝶素材提供

芸術的価値のある蝶パターンを生成

🚀 バタフライGAN

このモデルは、無条件画像生成を行うGANモデルです。少ないトレーニングデータでも高速かつ安定した学習が可能で、美しいバタフライの画像を生成することができます。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

import torch
from huggan.pytorch.lightweight_gan.lightweight_gan import LightweightGAN # 上記のcommunity-eventsリポジトリをインストール

gan = LightweightGAN.from_pretrained("ceyda/butterfly_cropped_uniq1K_512")
gan.eval()
batch_size = 1
with torch.no_grad():
        ims = gan.G(torch.randn(batch_size, gan.latent_dim)).clamp_(0., 1.)*255
        ims = ims.permute(0,2,3,1).detach().cpu().numpy().astype(np.uint8)
        # imsは[BxWxHxC]で、Image.fromarray(ims[0])を呼び出すことができます

✨ 主な機能

高速かつ安定した学習：単一のRTX - 2080 GPUで数時間のトレーニングで収束し、100未満のトレーニングサンプルでも安定した性能を発揮します。
低データトレーニング：論文で述べられているように、少ないデータでのトレーニングが可能です。

📦 インストール

このモデルを使用するには、huggingface/community - events リポジトリをインストールする必要があります。

💻 使用例

基本的な使用法

import torch
from huggan.pytorch.lightweight_gan.lightweight_gan import LightweightGAN # 上記のcommunity-eventsリポジトリをインストール

gan = LightweightGAN.from_pretrained("ceyda/butterfly_cropped_uniq1K_512")
gan.eval()
batch_size = 1
with torch.no_grad():
        ims = gan.G(torch.randn(batch_size, gan.latent_dim)).clamp_(0., 1.)*255
        ims = ims.permute(0,2,3,1).detach().cpu().numpy().astype(np.uint8)
        # imsは[BxWxHxC]で、Image.fromarray(ims[0])を呼び出すことができます

📚 ドキュメント

モデルの説明

このモデルは、論文: Towards Faster and Stabilized GAN Training for High - fidelity Few - shot Image Synthesis に基づいており、Light - GANモデルとも呼ばれています。この論文では、単一のRTX - 2080 GPUで数時間のトレーニングで収束し、100未満のトレーニングサンプルでも安定した性能を発揮することが述べられています。

このモデルは、ここのスクリプトを使用してトレーニングされており、lucidrainsのリポジトリから適応されています。

上記のスクリプトとは異なり、公式リポジトリの変換を使用しました。トレーニング画像はすでにクロップされ、整列されていたためです。公式論文の実装リポジトリ

transform_list = [
            transforms.Resize((int(im_size),int(im_size))),
            transforms.RandomHorizontalFlip(),
            transforms.ToTensor(),
            transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])
        ]

想定される用途と制限

このモデルは、楽しみや学習を目的としています。

制限とバイアス

トレーニング中に、各種から1匹のバタフライのみが含まれるようにデータセットをフィルタリングしました。そうしないと、モデルが生成するバタフライのバリエーションが減少します（画像が多いいくつかの種が支配的になります）。
データセットは、['pretty butterfly','one butterfly','butterfly with open wings','colorful butterfly'] のCLIPスコアを使用してもフィルタリングされました。これは、完全なデータセットからバタフライが含まれない画像（科学的なタグだけの画像、混乱した画像）を排除するために行われました。しかし、このようなアプローチが特定のシナリオで問題になる可能性があります。誰がどのバタフライが「きれい」でデータセットに含まれるべきかを判断するのでしょうか。例えば、CLIPがバタフライを識別できない場合、それをデータセットから除外してしまい、バイアスを引き起こす可能性があります。

トレーニングデータ

1000枚の画像が使用されました。この数を増やすことは可能でしたが、データセットを手動で選別する時間がありませんでした。また、論文で述べられているように、低データトレーニングが可能かどうかを確認したかったためです。

詳細はデータカードを参照してください。

トレーニング手順

2台のA4000で約1日間トレーニングされました。7 - 12時間で良好な結果が得られます。重要なパラメータは "--batch_size 64 --gradient_accumulate_every 4 --image_size 512 --mixed_precision fp16" です。トレーニングログはここで確認できます。