モデル概要
モデル特徴
モデル能力
使用事例
🚀 Mitsua Likes : オプトイン投稿者の「いいね」で学習されたテキストから画像への拡散モデル
Mitsua Likesは、日本語と英語に対応したテキストから画像への潜在拡散モデルです。明示的なオプトインで許諾を得たデータや、オープンライセンス及びパブリックドメインのデータのみを学習しており、既存の無許諾でスクレイピングされた画像やテキストをベースにしたデータセットには依存していません。特定分野の画像生成に優れ、アニメスタイルのシンプルなポートレイトや風景画などを得意とします。
🚀 クイックスタート
このモデルを使用するには、まず必要なPythonパッケージをインストールします。その後、サンプルコードを実行して画像を生成することができます。
パッケージのインストール
pip install transformers sentencepiece diffusers
バージョン確認
transformers==4.44.2
diffusers==0.31.0
sentencepiece==0.2.0
コードの実行
from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16
pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)
# 日本語 or English prompt
prompt = "滝の中の絵藍ミツア、先生アート"
# prompt = "elanmitsua in waterfall, sensei art, analog, impressionism painting"
negative_prompt = "elan doodle, lowres"
ret = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=5.0,
guidance_rescale=0.7,
width=768,
height=768,
num_inference_steps=40,
)
# 必ず、類似性判定AIの結果をチェックしてください
# Please check similarity detection model output
print("Similarity Restriction:", ret.detected_public_fictional_characters[0])
print("Similarity Measure:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
print(f"{k} : {v:.3%}")
image = ret.images[0]
✨ 主な機能
- 特定分野の画像生成:アニメスタイルのシンプルなポートレイトや風景画など、特定分野の画像生成に優れています。
- 言語対応:日本語と英語に対応しており、どちらの言語でも画像生成が可能です。
- オプトインデータのみを学習:明示的なオプトインで許諾を得たデータや、オープンライセンス及びパブリックドメインのデータのみを学習しています。
📦 インストール
必要なPythonパッケージをインストールすることで、このモデルを使用する環境を構築できます。
pip install transformers sentencepiece diffusers
💻 使用例
基本的な使用法
from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16
pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)
# 日本語 or English prompt
prompt = "滝の中の絵藍ミツア、先生アート"
# prompt = "elanmitsua in waterfall, sensei art, analog, impressionism painting"
negative_prompt = "elan doodle, lowres"
ret = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=5.0,
guidance_rescale=0.7,
width=768,
height=768,
num_inference_steps=40,
)
# 必ず、類似性判定AIの結果をチェックしてください
# Please check similarity detection model output
print("Similarity Restriction:", ret.detected_public_fictional_characters[0])
print("Similarity Measure:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
print(f"{k} : {v:.3%}")
image = ret.images[0]
📚 ドキュメント
モデルの詳細
属性 | 详情 |
---|---|
開発者 | ELAN MITSUA Project / Abstract Engine |
モデルタイプ | テキストから画像への潜在拡散モデル |
対応言語 | 日本語と英語 |
ライセンス | Mitsua Likes 表示-非営利ライセンス |
モデルアーキテクチャ
CLIP Text Encoder
- 12層のマスク付きテキストトランスフォーマー
- トークナイザー: 64kの語彙を持つsentencepieceトークナイザー
- 最大長: 64トークン
- このテキストエンコーダーはMitsua Japanese CLIPから取得されています。
VAE
- VAEは完全に公式に基づくWavelet Lossで学習されており、ImageNetに一切依存していません。(注: LPIPS知覚損失はImageNetに基づいています。)
- VAEデコーダーは、画像に不可視の透かしを埋め込むように微調整されています。The Stable Signature論文を参考にしていますが、独自の実装に基づいています。
- 透かし処理をVAE内で行うことで、画像生成時に透かしを削除することが不可能になり、Mitsua Likesで生成された画像を容易に識別できます。
- 潜在チャンネル数: 8
- ほとんどの潜在拡散モデルは4chまたは16chを潜在チャンネルとして採用していますが、8chの潜在チャンネルは小さなUNetに対して詳細と圧縮効率のバランスが良いです。
- 注意: このリポジトリのVAEエンコーダーの重みは、不正な微調整の誤用を防止するために初期化されています。VAEエンコーダーの重みが必要な場合は、My Mitsua Likes Waitlist Registrationから申請してください。
- 総学習ステップ数: バッチサイズ240、解像度256x256で280kステップ、約800 RTX4090時間かかりました。
UNet
- UNetアーキテクチャはSDXLのUNetを大きく参考にしていますが、比較的小さな学習データサイズに合わせてパラメータ数を削減しています。Scalability survey by Hao Li et alに基づいています。
- トランスフォーマーの深さを[0,2,10]から約[0,2,3]に詳細に調整して削減しています。
- 入力テキストエンコーダーの数を1つに削減しています。
- 入力チャンネル幅を384に増やしています。
- 入力潜在チャンネル数を8に増やしています。
- ミッドブロックのクロスアテンショントランスフォーマー層を削除しています。
- 最終的に、このUNetは約12億のパラメータを持ち、SDXLのUNetの約半分です。
- 学習手順は既存の拡散モデルとほぼ同じで、段階的な解像度学習を採用し、アスペクトバケット学習で終了します。
- 256x256 --> 512x512 --> 768x768 w/ アスペクトバケット (1024x576 ~ 896x672 ~ 768x768 ~ 672x896 ~ 576x1024)
- 総学習ステップ数: 解像度に応じてバッチサイズ216 ~ 1920で550k
- 学習の開始点ではエプシロン損失を使用し、最終学習段階ではゼロ終端SNRを持つv予測に学習損失を変更しています。
- UNetの学習は最も計算リソースを消費する部分です。予算内での学習を実現するために、UNetの学習を高速化する必要があります。
- より速い収束のために、Min-SNR定式化とImmiscible Diffusion技術を適用しています。
- 事前にVAEエンコーダーの極端な蒸留バージョンを学習し、学習の大部分で蒸留されたVAEエンコーダーを使用しています。
- 学習を高速化するために、MosaicMLが導入した事前計算された潜在変数を使用することはできません。学習データが少ないため、画像をオンザフライで拡張する必要があるからです。
- むしろ、非常に激しいGPU間通信が学習のボトルネックであることに気づきました。
- そのため、UNetとVAEエンコーダーの処理を別々のGPUに分割し、UNetの学習リソースを少数のGPUに集中させることで、UNetの同期オーバーヘッドを最小限に抑えています。
- これらの変更により、UNetの学習が67%高速化されました。すべての学習は単一の8xH100ノードで行われ、UNetの総学習時間は約2,000 H100 GPU時間でした。
キャラクター類似性判定モデル
- このモデルはSwin Base Multi Fractal 1kから微調整されたSwin Transformer多ラベル分類モデルで、Multi Fractal Imagesで事前学習されています。
- 学習データはMitsua Japanese CLIPモデルのサブセットです。
これは、生成された画像が特定の許諾を得た架空のキャラクターに似ているかどうかを確認するための追加の事後処理分類モデルです。学習データの多様性が不足しているため、生成された画像が意図せずに許諾を得たキャラクターに似ることがよくあります。したがって、許諾を得たキャラクターの規約を安全に遵守するために、追加のチェックが必要です。
想定される使用方法
- さらなる創作活動のためのアートワークの生成
- 生成モデルに関する研究または教育
想定外の使用方法
他人の権利を侵害したり(著作権、公衆権、プライバシーなど)、他人に危害を与えたりすることは、このモデルの誤用です。これには、以下のような行為が含まれますが、これらに限定されません。
- 他人を差別したり、中傷したり、侮辱したりして、その名誉や信用を傷つけること。
- 他人の知的財産権またはプライバシーを侵害する、または侵害する可能性のあること。
- 他人の利益を不当に害する情報やコンテンツを拡散すること。
- 虚偽の情報やコンテンツを拡散すること。
詳細については、Mitsua Likes 表示-非営利ライセンスの「禁止事項」を読んでください。
制限事項
これらの制限は、学習データの多様性が不足していることに起因しています。
- このモデルは写真の人物を描写することがほとんどできません。
- このモデルは長い自然言語のプロンプトを解釈することがほとんどできません。
- このモデルは複雑な構図を生成することがほとんどできません。
- このモデルは現代的な概念にあまり精通していません。
オプトイン投稿者のクレジット
スポンサーの先生
- 霧太郎/HAnS N Erhard先生
- pikurusu39先生
- ムスビイト先生
- 夢前黎 / つくよみちゃんプロジェクト先生
- Hussini先生
- 力ナディス先生
- るな先生
いつもありがとうございます!
すべてのMitsua投稿者のクレジット
- 霧太郎/HAnS N Erhard, pikurusu39, Hussini, 灯坂アキラ, ムスビイト, ネセヨレワ, 亞襲, E-Ken, とまこ, Nr. N, RI-YAnks, mkbt, 最中亜梨香/中森あか, 夢観士, KIrishusei, 長岡キヘイ, username_Kk32056, 相生創, 柊 華久椰, nog, 加熱九真, amabox, 野々村のの, 嘯(しゃお), 夢前黎 / つくよみちゃんプロジェクト, みきうさぎ, るな, テラ リソース / Tera Resource (素材系サークル), 力ナディス, とあ, 莉子, Roach=Jinx, ging ging.jpeg, 毛玉, 寝てる猫, ぽーたー, やえした みえ, mizuchi, 262111, 乙幡皇斗羽, ゆう, とどめの35番, WAYA, 明煉瓦, 桐生星斗(投稿物生成物使用自由), rcc, ask, L, 弐人, 石川すゐす, Sulphuriy, 602e, 中屋, IRICOMIX, 琵來山まろり(画像加工可), とりとめ, cha, 鏡双司, YR, えれいた, mariedoi, あると, あああ, らどん, netai98, 脂質, つあ🌠, ろすえん, 善良, UranosEBi, lenbrant, 長谷川, 輝竜司 / citrocube, 詩原るいか, 末広うた, 翠泉, 月波 清火, ゆぬ, 駒込ぴぺっこ, 原動機, ふわふわわ
- (敬称略)
- 最新のMitsua投稿者のクレジット
公式公開キャラクター
公式の許可を得て、以下のキャラクターの公式提供画像及びオプトイン参加者のファンアートを学習しています。
学習データ
CLIPの学習データについては、Mitsua Japanese CLIPモデルカードを参照してください。
生成モデルの学習には、オプトイン/オープンライセンスのデータとパブリックドメイン/CC0のデータを混合したデータセットを使用しています。メタデータとキャプションに基づく事前フィルタリングを適用して、潜在的な権利侵害、有害または不適切なデータを除外しています。事前フィルタリングデータのために、CC0でライセンスされたWikidataに基づいて、アーティスト名、有名人の名前、架空のキャラクター名、商標、悪い言葉を含む146,041語のデータベースを構築しています。明示的な許可なしに認識可能な人間の顔の実際の写真は使用していません。
- "Mitsua Likes" データセット: オプトイン投稿者からのライセンス付きデータ
- 投稿者のクレジット (表示)
- 部分的な学習画像のサムネイルは公式ウェブサイトで閲覧できます。
- すべての学習データはDiscordサーバー "Mitsua Contributors" で閲覧できます。
- すべての投稿者は参加時にスクリーニングされ、すべての投稿画像は人間によって検証されました。
- AI生成コンテンツ検出器を使用して、潜在的なAI生成画像を除外しています。
- "3RG" ライセンスの画像とそのキャプションを使用してこのモデルを学習しています。"3" または "3R" の画像は学習に使用されていません。
- Poly Haven のCC0でライセンスされたHDRI画像を使用して背景構図を拡張しています。
- VRM Color Concept 550K (CC BY-NC 4.0, このデータセットは当社が作成しました。)
- ELAN MITSUA Project / Abstract Engineによって作成されました。
🔧 技術詳細
このモデルのアーキテクチャ全体(CLIP Text Encoder, VAE, UNet)は、他のモデルの知識を使用することなく、完全にゼロから学習されています。また、キャラクター類似性判定モデルを用いて、生成された画像が特定の許諾を得た架空のキャラクターに似ているかどうかを確認することができます。
📄 ライセンス
このモデルはMitsua Likes 表示-非営利ライセンスの下で提供されています。生成物には"Mitsua Likes"のクレジット表記が必須であり、商用利用は個人の自身の創作目的に限定されます。他のモデルを学習する目的での利用は禁止されています。企業商用利用については、お問い合わせください。
⚠️ 重要提示
生成物には必ず "Mitsua Likes" のクレジット表記を行ってください。商用利用は個人の自身の創作目的に限定されています。他のモデルを学習する目的での利用は禁止されています。
💡 使用建议
生成された画像が特定の許諾を得た架空のキャラクターに似ているかどうかを確認するために、キャラクター類似性判定モデルの結果を必ずチェックしてください。

