cool-japan-diffusion-2-1-0オープンソースモデル - 日本アニメ文化要素を含む画像を無料で生成

Cool Japan Diffusion 2 1 0

aipicassoによって開発

Stable Diffusionをファインチューニングしたアニメスタイル画像生成モデルで、日本のアニメ、漫画、ゲームなどの文化要素を表現することに特化

画像生成オープンソースライセンス:その他 #アニメスタイル生成 #日本文化特化 #非商用制限

ダウンロード数 37

リリース時間 : 12/29/2022

モデル概要

Cool Japan DiffusionはStable Diffusionをファインチューニングしたテキスト生成画像モデルで、アニメ、漫画、ゲームなどの日本のポップカルチャーコンテンツに最適化され、高品質なアニメスタイル画像を生成できます。

モデル特徴

日本アニメスタイル最適化

アニメ、漫画、ゲームなどの日本のポップカルチャーコンテンツ向けに特別にトレーニング・最適化

高品質画像生成

4K高画質のアニメスタイル画像を生成可能

倫理・法律準拠

日本の法律と倫理問題を考慮したモデル開発で、明確な利用ガイドラインを提供

モデル能力

アニメスタイル画像生成

テキストから画像変換

高品質アート創作

文化コンテンツ表現

使用事例

アート創作

アニメキャラクターデザイン

オリジナルアニメキャラクターの肖像を生成

高品質なアニメスタイルキャラクター画像

イラスト創作

テキスト記述に基づいて完成したイラストを生成

4K高画質フルカラーイラスト

文化普及

日本文化展示

日本文化を代表するビジュアルコンテンツを生成

日本的な特徴を持つ高品質画像

教育研究

AIアート教育

美術系学校でのAI技術教育に利用

学生がAIアート創作原理を理解するのを支援

🚀 Cool Japan Diffusion 2.1.0モデルカード

Cool Japan Diffusion (for learning) はStable Diffsionをファインチューニングして、アニメやマンガ、ゲームなどのクールジャパンを表現することに特化したモデルです。なお、内閣府のクールジャパン戦略とは特に関係はありません。

アイキャッチ

⚠️ 重要提示

注意事項。2023年1月10日から、中国は画像生成の人工知能に対して法律的な制限を実施します。（中国国内にいる人への警告）

English version is here.

🚀 クイックスタート

Cool Japan Diffusion (for learning) はStable Diffsionをファインチューニングして、アニメやマンガ、ゲームなどのクールジャパンを表現することに特化したモデルです。

✨ 主な機能

このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは Latent Diffusion Model と OpenCLIP-ViT/H です。

📦 インストール

まずは、以下のスクリプトを実行し、ライブラリをインストールしてください。

pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy

💻 使用例

基本的な使用法

次のスクリプトを実行し、画像を生成してください。

from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch

model_id = "aipicasso/cool-japan-diffusion-2-1-0-beta"

scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "anime, a portrait of a girl with black short hair and red eyes, kimono, full color illustration, official art, 4k, detailed"
negative_prompt="low quality, bad face, bad anatomy, bad hand, lowres, jpeg artifacts, 2d, 3d, cg, text"
image = pipe(prompt,negative_prompt=negative_prompt).images[0]

image.save("girl.png")

高度な使用法

💡 使用建议

xformers を使うと早くなるらしいです。

GPUを使う際にGPUのメモリが少ない人は pipe.enable_attention_slicing() を使ってください。

📚 ドキュメント

ライセンスについて

ライセンスについては、もとのライセンス CreativeML Open RAIL++-M License に例外を除き商用利用禁止を追加しただけです。例外を除き商用利用禁止を追加した理由は創作業界に悪影響を及ぼしかねないという懸念からです。この懸念が払拭されれば、次のバージョンから元のライセンスに戻し、商用利用可能とします。ちなみに、元のライセンスの日本語訳はこちらになります。営利企業にいる方は法務部にいる人と相談してください。趣味で利用する方はあまり気にしなくても一般常識を守れば大丈夫なはずです。なお、ライセンスにある通り、このモデルを改造しても、このライセンスを引き継ぐ必要があります。

法律や倫理について

本モデルは日本にて作成されました。したがって、日本の法律が適用されます。本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。また、本モデルの配布については、著作権法や刑法175条に照らしてみても、正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の見解を御覧ください。ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。

しかし、本モデルを配布する行為が倫理的に良くないとは作者は思っています。これは学習する著作物に対して著作者の許可を得ていないためです。ただし、学習するには著作者の許可は法律上必要もなく、検索エンジンと同様法律上は問題はありません。したがって、法的な側面ではなく、倫理的な側面を調査する目的も本配布は兼ねていると考えてください。

使い方

手軽に楽しみたい方は、こちらのSpaceをお使いください。詳しい本モデルの取り扱い方はこちらの取扱説明書にかかれています。モデルはここからダウンロードできます。

想定される用途

コンテスト
- AIアートグランプリへの投稿
  - ファインチューニングに用いた全データを開示し、審査基準を満たしていることを判断してもらうようにします。また、事前に申請して、確認を取るようにします。
  - コンテストに向けて、要望があれば、Hugging Face の Community などで私に伝えてください。
画像生成AIに関する報道
- 公共放送だけでなく、営利企業でも可能
  - 画像合成AIに関する情報を「知る権利」は創作業界に悪影響を及ぼさないと判断したためです。また、報道の自由などを尊重しました。
クールジャパンの紹介
- 他国の人にクールジャパンとはなにかを説明すること。
  - 他国の留学生はクールジャパンに惹かれて日本に来ることがおおくあります。そこで、クールジャパンが日本では「クールでない」とされていることにがっかりされることがとても多いとAlfred Incrementは感じております。他国の人が憧れる自国の文化をもっと誇りに思ってください。
研究開発
- Discord上でのモデルの利用
  - プロンプトエンジニアリング
  - ファインチューニング（追加学習とも）
    - DreamBooth など
  - 他のモデルとのマージ
- Latent Diffusion Modelとクールジャパンとの相性
- 本モデルの性能をFIDなどで調べること
- 本モデルがStable Diffusion以外のモデルとは独立であることをチェックサムやハッシュ関数などで調べること
教育
- 美大生や専門学校生の卒業制作
- 大学生の卒業論文や課題制作
- 先生が画像生成AIの現状を伝えること
自己表現
- SNS上で自分の感情や思考を表現すること
Hugging Face の Community にかいてある用途
- 日本語か英語で質問してください

想定されない用途

物事を事実として表現するようなこと
収益化されているYouTubeなどのコンテンツへの使用
商用のサービスとして直接提供すること
先生を困らせるようなこと
その他、創作業界に悪影響を及ぼすこと

使用してはいけない用途や悪意のある用途

デジタル贋作 (Digital Forgery) は公開しないでください（著作権法に違反するおそれ）
- 特に既存のキャラクターは公開しないでください（著作権法に違反するおそれ）
  - なお、学習していないキャラクターも生成できるそうです。（このツイート自体は研究目的として許可しています。）
他人の作品を無断でImage-to-Imageしないでください（著作権法に違反するおそれ）
わいせつ物を頒布しないでください (刑法175条に違反するおそれ）
- いわゆる業界のマナーを守らないようなこと
事実に基づかないことを事実のように語らないようにしてください（威力業務妨害罪が適用されるおそれ）
- フェイクニュース

モデルの限界やバイアス

モデルの限界

よくわかっていない

バイアス

Stable Diffusionと同じバイアスが掛かっています。気をつけてください。

学習

学習データ

次のデータを主に使ってStable Diffusionをファインチューニングしています。

VAEについて
- Danbooruなどの無断転載サイトを除いた日本の国内法を遵守したデータ: 60万種類（データ拡張により無限枚作成）
U-Netについて
- Danbooruなどの無断転載サイトを除いた日本の国内法を遵守したデータ: 80万ペア

学習プロセス

Stable DiffusionのVAEとU-Netをファインチューニングしました。

ハードウェア: RTX 3090
オプティマイザー: AdamW
Gradient Accumulations: 1
バッチサイズ: 1

評価結果

未記載

環境への影響

ほとんどありません。

ハードウェアタイプ: RTX 3090
使用時間（単位は時間）: 300
クラウド事業者: なし
学習した場所: 日本
カーボン排出量: そんなにない

参考文献

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}