🚀 Cool Japan Diffusion 2.1.0モデルカード
Cool Japan Diffusion (for learning) はStable Diffsionをファインチューニングして、アニメやマンガ、ゲームなどのクールジャパンを表現することに特化したモデルです。なお、内閣府のクールジャパン戦略とは特に関係はありません。

⚠️ 重要提示
注意事項。2023年1月10日から、中国は画像生成の人工知能に対して法律的な制限を実施します。 (中国国内にいる人への警告)
English version is here.
🚀 クイックスタート
Cool Japan Diffusion (for learning) はStable Diffsionをファインチューニングして、アニメやマンガ、ゲームなどのクールジャパンを表現することに特化したモデルです。
✨ 主な機能
このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは Latent Diffusion Model と OpenCLIP-ViT/H です。
📦 インストール
まずは、以下のスクリプトを実行し、ライブラリをインストールしてください。
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用例
基本的な使用法
次のスクリプトを実行し、画像を生成してください。
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-0-beta"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "anime, a portrait of a girl with black short hair and red eyes, kimono, full color illustration, official art, 4k, detailed"
negative_prompt="low quality, bad face, bad anatomy, bad hand, lowres, jpeg artifacts, 2d, 3d, cg, text"
image = pipe(prompt,negative_prompt=negative_prompt).images[0]
image.save("girl.png")
高度な使用法
💡 使用建议
- xformers を使うと早くなるらしいです。
- GPUを使う際にGPUのメモリが少ない人は
pipe.enable_attention_slicing()
を使ってください。
📚 ドキュメント
ライセンスについて
ライセンスについては、もとのライセンス CreativeML Open RAIL++-M License に例外を除き商用利用禁止を追加しただけです。例外を除き商用利用禁止を追加した理由は創作業界に悪影響を及ぼしかねないという懸念からです。この懸念が払拭されれば、次のバージョンから元のライセンスに戻し、商用利用可能とします。ちなみに、元のライセンスの日本語訳はこちらになります。
営利企業にいる方は法務部にいる人と相談してください。趣味で利用する方はあまり気にしなくても一般常識を守れば大丈夫なはずです。
なお、ライセンスにある通り、このモデルを改造しても、このライセンスを引き継ぐ必要があります。
法律や倫理について
本モデルは日本にて作成されました。したがって、日本の法律が適用されます。本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。また、本モデルの配布については、著作権法や刑法175条に照らしてみても、正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の見解を御覧ください。
ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。
しかし、本モデルを配布する行為が倫理的に良くないとは作者は思っています。これは学習する著作物に対して著作者の許可を得ていないためです。ただし、学習するには著作者の許可は法律上必要もなく、検索エンジンと同様法律上は問題はありません。したがって、法的な側面ではなく、倫理的な側面を調査する目的も本配布は兼ねていると考えてください。
使い方
手軽に楽しみたい方は、こちらのSpaceをお使いください。詳しい本モデルの取り扱い方はこちらの取扱説明書にかかれています。モデルはここからダウンロードできます。
想定される用途
- コンテスト
- AIアートグランプリへの投稿
- ファインチューニングに用いた全データを開示し、審査基準を満たしていることを判断してもらうようにします。また、事前に申請して、確認を取るようにします。
- コンテストに向けて、要望があれば、Hugging Face の Community などで私に伝えてください。
- 画像生成AIに関する報道
- 公共放送だけでなく、営利企業でも可能
- 画像合成AIに関する情報を「知る権利」は創作業界に悪影響を及ぼさないと判断したためです。また、報道の自由などを尊重しました。
- クールジャパンの紹介
- 他国の人にクールジャパンとはなにかを説明すること。
- 他国の留学生はクールジャパンに惹かれて日本に来ることがおおくあります。そこで、クールジャパンが日本では「クールでない」とされていることにがっかりされることがとても多いとAlfred Incrementは感じております。他国の人が憧れる自国の文化をもっと誇りに思ってください。
- 研究開発
- Discord上でのモデルの利用
- プロンプトエンジニアリング
- ファインチューニング(追加学習とも)
- 他のモデルとのマージ
- Latent Diffusion Modelとクールジャパンとの相性
- 本モデルの性能をFIDなどで調べること
- 本モデルがStable Diffusion以外のモデルとは独立であることをチェックサムやハッシュ関数などで調べること
- 教育
- 美大生や専門学校生の卒業制作
- 大学生の卒業論文や課題制作
- 先生が画像生成AIの現状を伝えること
- 自己表現
- Hugging Face の Community にかいてある用途
想定されない用途
- 物事を事実として表現するようなこと
- 収益化されているYouTubeなどのコンテンツへの使用
- 商用のサービスとして直接提供すること
- 先生を困らせるようなこと
- その他、創作業界に悪影響を及ぼすこと
使用してはいけない用途や悪意のある用途
- デジタル贋作 (Digital Forgery) は公開しないでください(著作権法に違反するおそれ)
- 特に既存のキャラクターは公開しないでください(著作権法に違反するおそれ)
- 他人の作品を無断でImage-to-Imageしないでください(著作権法に違反するおそれ)
- わいせつ物を頒布しないでください (刑法175条に違反するおそれ)
- 事実に基づかないことを事実のように語らないようにしてください(威力業務妨害罪が適用されるおそれ)
モデルの限界やバイアス
モデルの限界
バイアス
Stable Diffusionと同じバイアスが掛かっています。気をつけてください。
学習
学習データ
次のデータを主に使ってStable Diffusionをファインチューニングしています。
- VAEについて
- Danbooruなどの無断転載サイトを除いた日本の国内法を遵守したデータ: 60万種類 (データ拡張により無限枚作成)
- U-Netについて
- Danbooruなどの無断転載サイトを除いた日本の国内法を遵守したデータ: 80万ペア
学習プロセス
Stable DiffusionのVAEとU-Netをファインチューニングしました。
- ハードウェア: RTX 3090
- オプティマイザー: AdamW
- Gradient Accumulations: 1
- バッチサイズ: 1
評価結果
未記載
環境への影響
ほとんどありません。
- ハードウェアタイプ: RTX 3090
- 使用時間(単位は時間): 300
- クラウド事業者: なし
- 学習した場所: 日本
- カーボン排出量: そんなにない
参考文献
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
🔧 技術詳細
本モデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは Latent Diffusion Model と OpenCLIP-ViT/H です。
📄 ライセンス
CreativeML Open RAIL++-M-NC License
*このモデルカードは Stable Diffusion v2 に基づいて、Alfred Incrementがかきました。