Koala-Lightning-1Bオープンソース画像生成モデル - テキストを効率的に美しい画像に変換する

ホーム

Koala Lightning 1b

etri-vilabによって開発

KOALA-Lightning-1BはSDXL-Lightningに基づく知識蒸留モデルで、U-Net構造を圧縮することで効率的なテキストから画像生成を実現、パラメータ規模1.16B

テキスト生成画像 #高速画像生成 #軽量SDXL #知識蒸留

ダウンロード数 390

リリース時間 : 5/29/2024

モデル概要

効率的なテキストから画像生成モデルで、自己注意知識蒸留技術によりSDXLアーキテクチャを圧縮し、生成品質を維持しながら推論速度を大幅に向上

モデル特徴

効率的なU-Netアーキテクチャ

SDXLと比較し、U-Net体積54%削減、パラメータ数1.16Bのみ

自己注意知識蒸留

自己注意特徴を重点的に蒸留することで画像生成品質を維持

低VRAM要件

8GB VRAMのコンシューマーGPU（例：3060Ti）で1024px画像生成可能

モデル能力

テキストから画像生成

高品質画像合成

高速推論

使用事例

クリエイティブデザイン

高速コンセプトアート生成

デザイナー向けに迅速なプロトタイプ生成能力を提供

0.66秒で1024x1024画像生成（NVIDIA 4090）

リソース制約環境

コンシューマーGPU展開

VRAMが限られたデバイスで高解像度画像生成を実現

8GB VRAMの3060Tiで動作可能

🚀 KOALA-Lightning-1Bモデルカード

このモデルは、SDXLのU-Netを圧縮し、知識蒸留を行うことで高速なテキストから画像への生成を実現します。SDXLよりも大幅に高速で、低リソース環境でも高解像度画像を生成できます。

🚀 クイックスタート

概要

自己注意ベースの知識蒸留手法を用いて学習されました。
教師モデル: SDXL-Lightning
学習データセット: LAION-POPデータセットのサブセット
学習反復回数: バッチサイズ128で500K回
学習GPU: 4台のNVIDIA A100 (80GB)

✨ 主な機能

効率的なU-Netアーキテクチャ：KOALAモデルは、前作のStable Diffusion XL (SDXL)と比較して、モデルサイズを最大54％と69％にそれぞれ削減した簡略化されたU-Netアーキテクチャを使用しています。
自己注意ベースの知識蒸留：KOALAの核心技術は、自己注意特徴の蒸留に焦点を当てており、これが画像生成品質を維持するために重要であることが証明されています。

📦 インストール

以下は、🤗Diffusersライブラリを使用した推論コード例です。

import torch
from diffusers import StableDiffusionXLPipeline, EulerDiscreteScheduler

pipe = StableDiffusionXLPipeline.from_pretrained("etri-vilab/koala-lightning-1b", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# Ensure sampler uses "trailing" timesteps and "sample" prediction type.
pipe.scheduler = EulerDiscreteScheduler.from_config(
    pipe.scheduler.config, timestep_spacing="trailing"
  )


prompt = "A portrait painting of a Golden Retriever like Leonard da Vinci"
negative = "worst quality, low quality, illustration, low resolution"
image = pipe(prompt=prompt, negative_prompt=negative, guidance_scale=3.5, num_inference_steps=10).images[0]

💻 使用例

基本的な使用法

import torch
from diffusers import StableDiffusionXLPipeline, EulerDiscreteScheduler

pipe = StableDiffusionXLPipeline.from_pretrained("etri-vilab/koala-lightning-1b", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# Ensure sampler uses "trailing" timesteps and "sample" prediction type.
pipe.scheduler = EulerDiscreteScheduler.from_config(
    pipe.scheduler.config, timestep_spacing="trailing"
  )


prompt = "A portrait painting of a Golden Retriever like Leonard da Vinci"
negative = "worst quality, low quality, illustration, low resolution"
image = pipe(prompt=prompt, negative_prompt=negative, guidance_scale=3.5, num_inference_steps=10).images[0]

📚 ドキュメント

要約

このモデルは、自己注意ベースの知識蒸留手法を用いて学習されています。
教師モデルはSDXL-Lightningです。
学習データセットはLAION-POPデータセットのサブセットです。
学習反復回数はバッチサイズ128で500K回、学習には4台のNVIDIA A100 (80GB)を使用しています。

KOALA-Lightningモデル

モデル	リンク
koala-lightning-1b	https://huggingface.co/etri-vilab/koala-lightning-1b
koala-lightning-700m	https://huggingface.co/etri-vilab/koala-lightning-700m

概要

全文を表示

テキストから画像への合成モデルが大規模化するにつれ、より高価で大容量のGPUが必要となり、推論コストが増加するとともに、学習データセットへのアクセス制限もあるため、これらのモデルを再現することが困難になっています。本研究では、これらの推論コストを削減し、公開されているデータセットとオープンソースモデルのみを使用して、テキストから画像への生成モデルの生成能力をどこまで拡張できるかを探ります。このため、事実上の標準的なテキストから画像へのモデルであるStable Diffusion XL (SDXL)を使用して、効率的なテキストから画像へのモデルを構築するための3つの重要な手法を提案します。(1) 知識蒸留：SDXLの生成能力を効率的なU-Netに蒸留する方法を探索し、自己注意が最も重要な部分であることを見出しまし。(2) データ：サンプル数が少なくても、豊富なキャプションを持つ高解像度画像は、短いキャプションを持つ多数の低解像度画像よりも重要です。(3) 教師：ステップ蒸留された教師により、テキストから画像へのモデルはノイズ除去ステップを減らすことができます。これらの知見に基づいて、2つのコンパクトなU-Net (1Bと700M)を持つ2種類の効率的なテキストから画像へのモデル、KOALA-Turboと-Lightningを構築し、SDXL U-Netのモデルサイズを最大54％と69％に削減しまし。特に、KOALA-Lightning-700MはSDXLよりも4倍高速で、十分な生成品質を維持しています。さらに、SDXLとは異なり、私たちのKOALAモデルは、8GBのVRAMを持つ消費者向けGPU (3060Ti)で1024pxの高解像度画像を生成することができます。私たちは、KOALAモデルが、リソース制約のある環境での学術研究者や一般ユーザーにとって、SDXLの費用対効果の高い代替手段として大きな実用的な影響を与えると信じています。

アーキテクチャ

2種類の圧縮されたU-Net、KOALA-1BとKOALA-700Mがあり、これらは残差ブロックとトランスフォーマーブロックを削減することで実現されています。

U-Net比較

U-Net	SDM-v2.0	SDXL-Base-1.0	KOALA-1B	KOALA-700M
パラメータ数	865M	2,567M	1,161M	782M
チェックポイントサイズ	3.46GB	10.3GB	4.4GB	3.0GB
トランスフォーマーブロック	[1, 1, 1, 1]	[0, 2, 10]	[0, 2, 6]	[0, 2, 5]
中間ブロック	✓	✓	✓	✗
レイテンシー	1.131s	3.133s	1.604s	1.257s

Txはトランスフォーマーブロック、CKPTは学習済みのチェックポイントファイルを意味します。
レイテンシーは、NVIDIA 4090 GPU (24GB)でFP16精度、25回のノイズ除去ステップで測定しています。
SDM-v2.0は768x768の解像度を使用し、SDXLとKOALAモデルは1024x1024の解像度を使用しています。

異なるGPUでのレイテンシーとメモリ使用量の比較

様々な消費者向けGPU（NVIDIA 3060Ti (8GB)、2080Ti (11GB)、4090 (24GB)）を使用して、SDXL-TurboとKOALA-Turboモデルの推論時間を512x512の解像度で、その他のモデルを1024x1024の解像度で測定しました。'OOM'はメモリ不足を示します。SDXLモデルは8GBのVRAMを持つ3060Tiでは動作できませんが、私たちのKOALAモデルはすべてのGPUタイプで動作できます。

モデルの説明

開発元: ETRI Visual Intelligence Lab
開発者: Youngwan Lee、Kwanyong Park、Yoorhim Cho、Young-Ju Lee、Sung Ju Hwang
モデルの説明: 潜在拡散ベースのテキストから画像への生成モデル。KOALAモデルは、SDXL-Base-1.0と同じテキストエンコーダを使用し、ノイズ除去U-Netのみを圧縮されたU-Netに置き換えています。
教師モデル: SDXL-Lightning
学習データセット: LAION-POPデータセットのサブセット
学習反復回数: バッチサイズ128で500K回
学習GPU: 4台のNVIDIA A100 (80GB)
詳細情報のリソース: arXivのKOALAレポートとプロジェクトページをご確認ください。

使用方法

直接使用

このモデルは研究目的のみを意図しています。可能な研究分野やタスクには以下が含まれます。

アートワークの生成とデザインやその他の芸術的プロセスでの使用。
教育または創造的なツールでの応用。
生成モデルに関する研究。
有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
生成モデルの制限とバイアスの調査と理解。
以下に記載されている除外される使用方法は除きます。

範囲外の使用

このモデルは、人やイベントの事実的または真実の表現を生成するように学習されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

制限とバイアス

テキストレンダリング：モデルは、画像内に長い読みやすいテキストをレンダリングする際に課題に直面しています。
複雑なプロンプト：KOALAは、複数の属性を含む複雑なプロンプトに対処するのに苦労することがあります。
データセット依存性：現在の制限は、学習データセット（LAION-aesthetics-V2 6+）の特性に部分的に起因しています。

📄 ライセンス

@misc{Lee@koala,
    title={KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis}, 
    author={Youngwan Lee and Kwanyong Park and Yoorhim Cho and Yong-Ju Lee and Sung Ju Hwang},
    year={2023},
    eprint={2312.04005},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}