🚀 KOALA-700M-LLaVA-Caption模型
KOALA是一個快速文本到圖像的模型。它通過壓縮SDXL的U-Net並從SDXL中提煉知識,在減少模型大小的同時,保持了不錯的生成質量。KOALA-700M在NVIDIA 4090 GPU上生成1024x1024圖像不到1.5秒,速度是SDXL的兩倍多,可作為資源有限時SDM和SDXL之間的不錯替代方案。
🚀 快速開始
你可以使用🤗 Diffusers庫 進行推理。以下是一個使用25個去噪步驟的推理代碼示例:
import torch
from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained("etri-vilab/koala-700m-llava-cap", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "A portrait painting of a Golden Retriever like Leonard da Vinci"
negative = "worst quality, low quality, illustration, low resolution"
image = pipe(prompt=prompt, negative_prompt=negative).images[0]
✨ 主要特性
- 高效的U-Net架構:KOALA模型使用簡化的U-Net架構,與前代模型Stable Diffusion XL (SDXL) 相比,模型大小分別減少了54%和69%。
- 基於自注意力的知識蒸餾:KOALA的核心技術專注於自注意力特徵的蒸餾,這對保持圖像生成質量至關重要。
📦 模型卡片
模型 |
鏈接 |
koala-700m |
https://huggingface.co/etri-vilab/koala-700m |
koala-700m-llava-cap |
https://huggingface.co/etri-vilab/koala-700m-llava-cap |
koala-1b |
https://huggingface.co/etri-vilab/koala-1bm |
koala-1b-llava-cap |
https://huggingface.co/etri-vilab/koala-1b-llava-cap |
📚 詳細文檔
摘要
簡而言之
我們提出了一個名為KOALA的快速文本到圖像模型,通過壓縮SDXL的U-Net並將SDXL的知識提煉到我們的模型中。KOALA-700M在NVIDIA 4090 GPU上可以在不到1.5秒的時間內生成1024x1024的圖像,速度比SDXL快兩倍多。KOALA-700M可以在資源有限的情況下作為SDM和SDXL之間的不錯替代方案。
完整摘要
由於其生成性能和開源性質,Stable diffusion是社區中文本到圖像 (T2I) 合成的主要方法。最近,Stable Diffusion XL (SDXL) 作為Stable diffusion的繼任者,因其在1024x1024更高分辨率和更大模型下的顯著性能提升而受到廣泛關注。然而,其增加的計算成本和模型大小要求終端用戶使用更高端的硬件(如更大VRAM的GPU),導致更高的運營成本。為了解決這個問題,在這項工作中,我們提出了一種通過提煉SDXL知識獲得的高效潛在擴散模型用於文本到圖像合成。為此,我們首先對SDXL中的去噪U-Net進行了深入分析,它是模型的主要瓶頸,然後基於分析設計了一個更高效的U-Net。其次,我們探索瞭如何有效地將SDXL的生成能力提煉到一個高效的U-Net中,並最終確定了四個關鍵因素,其中核心是自注意力是最重要的部分。通過我們高效的U-Net和基於自注意力的知識蒸餾策略,我們構建了我們的高效T2I模型,稱為KOALA-1B和-700M,同時將模型大小分別減少到原始SDXL模型的54%和69%。特別是,KOALA-700M比SDXL快兩倍多,同時仍保持了不錯的生成質量。我們希望由於其平衡的速度 - 性能權衡,我們的KOALA模型可以作為資源受限環境中具有成本效益的SDXL替代方案。
架構
有兩種壓縮的U-Net類型,KOALA-1B和KOALA-700M,它們通過減少殘差塊和Transformer塊來實現。
U-Net比較
U-Net |
SDM-v2.0 |
SDXL-Base-1.0 |
KOALA-1B |
KOALA-700M |
參數 |
865M |
2,567M |
1,161M |
782M |
檢查點大小 |
3.46GB |
10.3GB |
4.4GB |
3.0GB |
Transformer塊 |
[1, 1, 1, 1] |
[0, 2, 10] |
[0, 2, 6] |
[0, 2, 5] |
中間塊 |
✓ |
✓ |
✓ |
✗ |
延遲 |
1.131s |
3.133s |
1.604s |
1.257s |
- Tx表示Transformer塊,CKPT表示訓練的檢查點文件。
- 我們在NVIDIA 4090 GPU (24GB) 上使用FP16精度和25個去噪步驟測量延遲。
- SDM-v2.0使用768x768分辨率,而SDXL和KOALA模型使用1024x1024分辨率。
不同GPU上的延遲和內存使用比較
我們使用各種消費級GPU(NVIDIA 3060Ti (8GB)、2080Ti (11GB) 和4090 (24GB))測量了768x768分辨率的SDM-v2.0和1024x1024分辨率的其他模型的推理時間。我們使用25個去噪步驟和FP16/FP32精度。OOM表示內存不足。請注意,SDXL-Base無法在8GB GPU上運行。
模型描述
用途
直接使用
該模型僅用於研究目的。可能的研究領域和任務包括:
- 藝術作品生成及在設計和其他藝術過程中的應用。
- 教育或創意工具中的應用。
- 生成模型的研究。
- 對可能生成有害內容的模型進行安全部署。
- 探索和理解生成模型的侷限性和偏差。
超出範圍的使用
該模型未經過訓練以真實反映人物或事件,因此使用該模型生成此類內容超出了該模型的能力範圍。
侷限性和偏差
- 文本渲染:模型在圖像中渲染長而清晰的文本時面臨挑戰。
- 複雜提示:KOALA有時在處理涉及多個屬性的複雜提示時會遇到困難。
- 數據集依賴:當前的侷限性部分歸因於訓練數據集(LAION-aesthetics-V2 6+)的特性。
📄 許可證
如果你使用了該模型,請引用以下文獻:
@misc{Lee@koala,
title={KOALA: Self-Attention Matters in Knowledge Distillation of Latent Diffusion Models for Memory-Efficient and Fast Image Synthesis},
author={Youngwan Lee and Kwanyong Park and Yoorhim Cho and Yong-Ju Lee and Sung Ju Hwang},
year={2023},
eprint={2312.04005},
archivePrefix={arXiv},
primaryClass={cs.CV}
}