🚀 学習用Cool Japan Diffusion 2.0モデルカード
学習用Cool Japan Diffusion 2.0は、Stable Diffusionをファインチューニングした、イラスト生成に特化したモデルです。主に日本語での利用を想定しており、日本の文化やイラストスタイルに適した画像を生成できます。
🚀 クイックスタート
手軽に楽しみたい方は、右側にあるテキストフォームに入力して画像を生成してみてください。また、Fくんが作ったSpaceでも試すことができます。本格的に使いたい方は、注意事項を読んだ上で、この記事を参考にしてください。
✨ 主な機能
- プロンプトに応じて、イラストやマンガ調の画像を生成できます。
- Stable Diffusion v2と同じ使い方で、Web UIやDiffusersを利用できます。
📦 インストール
Diffusersを使ってモデルを利用する場合、まずは以下のスクリプトを実行してライブラリをインストールしてください。
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用例
基本的な使用法
from diffusers import StableDiffusionPipeline
import torch
model_id = "alfredplpl/cool-japan-diffusion-for-learning-2-0"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "anime, a beautuful girl with black hair and red eyes, kimono, 4k, detailed"
image = pipe(prompt, height=512, width=512).images[0]
image.save("girl.png")
高度な使用法
- xformers を使うと、画像生成が高速化されます。
- GPUのメモリが少ない場合は、
pipe.enable_attention_slicing()
を使用してください。
📚 ドキュメント
モデル詳細
属性 |
详情 |
モデルタイプ |
拡散モデルベースの text-to-image 生成モデル |
開発者 |
Robin Rombach, Patrick Esser, Alfred Increment |
言語 |
日本語 |
ライセンス |
CreativeML Open RAIL++-M-NC License |
モデルの説明 |
このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは Latent Diffusion Model と OpenCLIP-ViT/H です。 |
参考文献 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
想定される用途
- コンテストへの投稿
- 画像生成AIに関する報道
- クールジャパンの紹介
- 研究開発
- 教育
- 自己表現
- Hugging Face の Community に記載されている用途
想定されない用途
- 物事を事実として表現すること
- 収益化されているコンテンツへの使用
- 商用サービスとしての直接提供
- 先生を困らせること
- 創作業界に悪影響を及ぼすこと
使用してはいけない用途や悪意のある用途
- デジタル贋作の公開
- 他人の作品の無断Image-to-Image
- わいせつ物の頒布
- 事実に基づかないことを事実のように語ること
モデルの限界やバイアス
- モデルの限界については、まだ十分に把握されていません。
- 女性はきれいに出力される傾向があり、男性はきれいに出力されにくいバイアスがあります。
- 出力する人の存在場所によって、人種の偏りが見られることが報告されています。
- イラストに特化していますが、プロンプトによっては実写のような画像を生成することができます。
学習
- 学習データ:Twitterに掲載されたイラストやマンガ約20万枚
- 学習プロセス:Stable DiffusionのVAEとU-Netをファインチューニング
- ハードウェア:RTX 3090
- オプティマイザー:AdamW
- Gradient Accumulations:1
- バッチサイズ:1
評価結果
CLIP Score
CLIP Scoreは高いほど、プロンプトに応じた画像を生成していることを示します。
ただし、本モデルのほうが有利になる条件で評価されている可能性があります。
FID, DaFID-512
FIDは低いほど、2つのデータセットが画像認識的に近いことを示します。DaFID-512は二次元イラストに特化した指標です。

環境への影響
- ハードウェアタイプ:RTX 3090
- 使用時間:300時間
- クラウド事業者:なし
- 学習した場所:日本
- カーボン排出量:少ない
🔧 技術詳細
本モデルは、Stable Diffusionをベースに、Twitterに掲載されたイラストやマンガを学習データとしてファインチューニングしています。アルゴリズムは Latent Diffusion Model と OpenCLIP-ViT/H を使用しています。
📄 ライセンス
本モデルのライセンスは、もとのライセンス CreativeML Open RAIL++-M License に例外を除き商用利用禁止を追加したものです。元のライセンスの日本語訳はこちらにあります。
⚠️ 重要提示
2023年1月10日から、中国では画像生成のAIに対して法律的な制限が実施されます。詳細はこちらを参照してください。
💡 使用建议
本モデルの生成物は、各種法令に従って取り扱ってください。また、創作業界に悪影響を及ぼすようなことは避けてください。