🚀 KOALA-Lightning-1Bモデルカード
このモデルは、SDXLのU-Netを圧縮し、知識蒸留を行うことで高速なテキストから画像への生成を実現します。SDXLよりも大幅に高速で、低リソース環境でも高解像度画像を生成できます。
🚀 クイックスタート
概要
- 自己注意ベースの知識蒸留手法を用いて学習されました。
- 教師モデル: SDXL-Lightning
- 学習データセット: LAION-POPデータセットのサブセット
- 学習反復回数: バッチサイズ128で500K回
- 学習GPU: 4台のNVIDIA A100 (80GB)
✨ 主な機能
- 効率的なU-Netアーキテクチャ:KOALAモデルは、前作のStable Diffusion XL (SDXL)と比較して、モデルサイズを最大54%と69%にそれぞれ削減した簡略化されたU-Netアーキテクチャを使用しています。
- 自己注意ベースの知識蒸留:KOALAの核心技術は、自己注意特徴の蒸留に焦点を当てており、これが画像生成品質を維持するために重要であることが証明されています。
📦 インストール
以下は、🤗Diffusersライブラリを使用した推論コード例です。
import torch
from diffusers import StableDiffusionXLPipeline, EulerDiscreteScheduler
pipe = StableDiffusionXLPipeline.from_pretrained("etri-vilab/koala-lightning-1b", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
pipe.scheduler = EulerDiscreteScheduler.from_config(
pipe.scheduler.config, timestep_spacing="trailing"
)
prompt = "A portrait painting of a Golden Retriever like Leonard da Vinci"
negative = "worst quality, low quality, illustration, low resolution"
image = pipe(prompt=prompt, negative_prompt=negative, guidance_scale=3.5, num_inference_steps=10).images[0]
💻 使用例
基本的な使用法
import torch
from diffusers import StableDiffusionXLPipeline, EulerDiscreteScheduler
pipe = StableDiffusionXLPipeline.from_pretrained("etri-vilab/koala-lightning-1b", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
pipe.scheduler = EulerDiscreteScheduler.from_config(
pipe.scheduler.config, timestep_spacing="trailing"
)
prompt = "A portrait painting of a Golden Retriever like Leonard da Vinci"
negative = "worst quality, low quality, illustration, low resolution"
image = pipe(prompt=prompt, negative_prompt=negative, guidance_scale=3.5, num_inference_steps=10).images[0]
📚 ドキュメント
要約
- このモデルは、自己注意ベースの知識蒸留手法を用いて学習されています。
- 教師モデルはSDXL-Lightningです。
- 学習データセットはLAION-POPデータセットのサブセットです。
- 学習反復回数はバッチサイズ128で500K回、学習には4台のNVIDIA A100 (80GB)を使用しています。
KOALA-Lightningモデル
モデル |
リンク |
koala-lightning-1b |
https://huggingface.co/etri-vilab/koala-lightning-1b |
koala-lightning-700m |
https://huggingface.co/etri-vilab/koala-lightning-700m |
概要
全文を表示
テキストから画像への合成モデルが大規模化するにつれ、より高価で大容量のGPUが必要となり、推論コストが増加するとともに、学習データセットへのアクセス制限もあるため、これらのモデルを再現することが困難になっています。本研究では、これらの推論コストを削減し、公開されているデータセットとオープンソースモデルのみを使用して、テキストから画像への生成モデルの生成能力をどこまで拡張できるかを探ります。このため、事実上の標準的なテキストから画像へのモデルであるStable Diffusion XL (SDXL)を使用して、効率的なテキストから画像へのモデルを構築するための3つの重要な手法を提案します。(1) 知識蒸留:SDXLの生成能力を効率的なU-Netに蒸留する方法を探索し、自己注意が最も重要な部分であることを見出しまし。(2) データ:サンプル数が少なくても、豊富なキャプションを持つ高解像度画像は、短いキャプションを持つ多数の低解像度画像よりも重要です。(3) 教師:ステップ蒸留された教師により、テキストから画像へのモデルはノイズ除去ステップを減らすことができます。これらの知見に基づいて、2つのコンパクトなU-Net (1Bと700M)を持つ2種類の効率的なテキストから画像へのモデル、KOALA-Turboと-Lightningを構築し、SDXL U-Netのモデルサイズを最大54%と69%に削減しまし。特に、KOALA-Lightning-700MはSDXLよりも4倍高速で、十分な生成品質を維持しています。さらに、SDXLとは異なり、私たちのKOALAモデルは、8GBのVRAMを持つ消費者向けGPU (3060Ti)で1024pxの高解像度画像を生成することができます。私たちは、KOALAモデルが、リソース制約のある環境での学術研究者や一般ユーザーにとって、SDXLの費用対効果の高い代替手段として大きな実用的な影響を与えると信じています。
アーキテクチャ
2種類の圧縮されたU-Net、KOALA-1BとKOALA-700Mがあり、これらは残差ブロックとトランスフォーマーブロックを削減することで実現されています。
U-Net比較
U-Net |
SDM-v2.0 |
SDXL-Base-1.0 |
KOALA-1B |
KOALA-700M |
パラメータ数 |
865M |
2,567M |
1,161M |
782M |
チェックポイントサイズ |
3.46GB |
10.3GB |
4.4GB |
3.0GB |
トランスフォーマーブロック |
[1, 1, 1, 1] |
[0, 2, 10] |
[0, 2, 6] |
[0, 2, 5] |
中間ブロック |
✓ |
✓ |
✓ |
✗ |
レイテンシー |
1.131s |
3.133s |
1.604s |
1.257s |
- Txはトランスフォーマーブロック、CKPTは学習済みのチェックポイントファイルを意味します。
- レイテンシーは、NVIDIA 4090 GPU (24GB)でFP16精度、25回のノイズ除去ステップで測定しています。
- SDM-v2.0は768x768の解像度を使用し、SDXLとKOALAモデルは1024x1024の解像度を使用しています。
異なるGPUでのレイテンシーとメモリ使用量の比較
様々な消費者向けGPU(NVIDIA 3060Ti (8GB)、2080Ti (11GB)、4090 (24GB))を使用して、SDXL-TurboとKOALA-Turboモデルの推論時間を512x512の解像度で、その他のモデルを1024x1024の解像度で測定しました。'OOM'はメモリ不足を示します。SDXLモデルは8GBのVRAMを持つ3060Tiでは動作できませんが、私たちのKOALAモデルはすべてのGPUタイプで動作できます。
モデルの説明
使用方法
直接使用
このモデルは研究目的のみを意図しています。可能な研究分野やタスクには以下が含まれます。
- アートワークの生成とデザインやその他の芸術的プロセスでの使用。
- 教育または創造的なツールでの応用。
- 生成モデルに関する研究。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
- 生成モデルの制限とバイアスの調査と理解。
- 以下に記載されている除外される使用方法は除きます。
範囲外の使用
このモデルは、人やイベントの事実的または真実の表現を生成するように学習されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
制限とバイアス
- テキストレンダリング:モデルは、画像内に長い読みやすいテキストをレンダリングする際に課題に直面しています。
- 複雑なプロンプト:KOALAは、複数の属性を含む複雑なプロンプトに対処するのに苦労することがあります。
- データセット依存性:現在の制限は、学習データセット(LAION-aesthetics-V2 6+)の特性に部分的に起因しています。
📄 ライセンス
@misc{Lee@koala,
title={KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis},
author={Youngwan Lee and Kwanyong Park and Yoorhim Cho and Yong-Ju Lee and Sung Ju Hwang},
year={2023},
eprint={2312.04005},
archivePrefix={arXiv},
primaryClass={cs.CV}
}