Mitsua Likes
模型概述
該模型專注於生成動漫風格簡單肖像和風景畫,採用從零開始訓練的架構,不依賴任何預訓練模型知識。
模型特點
公平訓練認證
已獲得Fairly Trained認證,確保僅使用授權數據進行訓練
從零訓練架構
整個模型架構均為從零開始訓練,不依賴任何預訓練模型知識
動漫風格專精
在生成動漫風格簡單肖像和風景畫等特定領域表現出色
多語言支持
支持日語和英語提示詞輸入
版權保護機制
內置角色相似性判定模型和隱形水印技術
模型能力
文本到圖像生成
動漫風格圖像生成
多語言提示理解
簡單肖像創作
風景畫生成
使用案例
藝術創作
動漫角色創作
生成簡單動漫風格角色肖像
適合個人非商業用途的角色設計
風景畫生成
根據文字描述生成動漫風格風景
可用於藝術創作靈感啟發
研究教育
生成模型研究
研究小規模授權數據訓練模型的性能
🚀 Mitsua Likes:基於用戶“喜好”數據訓練的文生圖擴散模型
Mitsua Likes是一款支持日語和英語的文生圖潛在擴散模型,專為AI VTuber絵藍ミツア打造。它僅使用明確許可、開放許可和公共領域的數據進行訓練,不依賴任何未授權的圖像或文本數據集,具有較高的合規性和創新性。該模型在特定領域的圖像生成上表現出色,如動漫風格的簡單肖像和風景。
🚀 快速開始
安裝Python包
pip install transformers sentencepiece diffusers
驗證版本如下:
transformers==4.44.2
diffusers==0.31.0
sentencepiece==0.2.0
運行代碼
from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16
pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)
# 日語或英語提示詞
prompt = "滝の中の絵藍ミツア、先生アート"
# prompt = "elanmitsua in waterfall, sensei art, analog, impressionism painting"
negative_prompt = "elan doodle, lowres"
ret = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=5.0,
guidance_rescale=0.7,
width=768,
height=768,
num_inference_steps=40,
)
# 務必檢查相似性判定AI的結果
# Please check similarity detection model output
print("Similarity Restriction:", ret.detected_public_fictional_characters[0])
print("Similarity Measure:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
print(f"{k} : {v:.3%}")
image = ret.images[0]
✨ 主要特性
- 數據合規:僅使用明確許可、開放許可和公共領域的數據進行訓練,不使用其他預訓練模型的合成數據,不依賴未授權的圖像或文本數據集。
- 從頭訓練:模型的整個架構(CLIP文本編碼器、VAE和UNet)完全從頭開始訓練,不使用任何預訓練模型的知識。
- 特定領域擅長:雖然對大多數現代概念和複雜提示的處理能力有限,但在生成特定類型的圖像(如簡單的動漫風格肖像和風景)方面表現出色。
- 版權認證:獲得了美國非營利組織Fairly Trained的認證,表明該模型未在未經許可的受版權保護作品上進行訓練。
📦 安裝指南
安裝所需的Python包:
pip install transformers sentencepiece diffusers
驗證版本如下:
transformers==4.44.2
diffusers==0.31.0
sentencepiece==0.2.0
💻 使用示例
基礎用法
from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16
pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)
# 日語或英語提示詞
prompt = "滝の中の絵藍ミツア、先生アート"
# prompt = "elanmitsua in waterfall, sensei art, analog, impressionism painting"
negative_prompt = "elan doodle, lowres"
ret = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=5.0,
guidance_rescale=0.7,
width=768,
height=768,
num_inference_steps=40,
)
# 務必檢查相似性判定AI的結果
# Please check similarity detection model output
print("Similarity Restriction:", ret.detected_public_fictional_characters[0])
print("Similarity Measure:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
print(f"{k} : {v:.3%}")
image = ret.images[0]
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
開發者 | ELAN MITSUA Project / Abstract Engine |
模型類型 | 文生圖潛在擴散模型 |
語言 | 日語和英語 |
許可證 | Mitsua Likes 署名 - 非商業許可(英文) / Mitsua Likes 表示 - 非営利ライセンス(日文)。生成結果需標註"Mitsua Likes",商用僅限個人創作目的,禁止用於訓練其他模型。企業商用請聯繫我們。 |
模型架構
CLIP文本編碼器
- 12層掩碼文本轉換器
- 分詞器:具有64k詞彙表的sentencepiece分詞器
- 最大長度:64個標記
- 此文本編碼器來自Mitsua Japanese CLIP
VAE
- 使用基於公式的小波損失進行訓練,確保不依賴任何ImageNet數據。
- VAE解碼器經過微調,可以在圖像中嵌入不可見水印,參考了The Stable Signature論文,但基於自己的實現。
- 通過將水印處理放在VAE中而不是作為後處理,使得在生成圖像時無法去除水印,便於區分圖像是否由Mitsua Likes生成。
- 潛在通道數:8
- 注意:此倉庫的VAE編碼器權重已初始化,以防止未經授權的微調。如需VAE編碼器權重,請從My Mitsua Likes Waitlist Registration申請。
- 總訓練步數:280k步,批次大小240,分辨率256x256,約需800個RTX4090小時。
UNet
- UNet架構大量參考了SDXL的UNet,但根據Scalability survey by Hao Li et al減少了參數數量,以適應相對較小的訓練數據規模。
- 訓練過程與現有擴散模型基本相同,採用漸進式分辨率訓練,並以縱橫比桶訓練結束。
- UNet訓練是最耗費計算資源的部分,為了實現預算內訓練,需要加快UNet訓練速度。
- 通過將UNet和VAE編碼器處理分配到不同的GPU上,並將UNet訓練資源集中在較少的GPU上,最小化了UNet同步開銷,使UNet訓練速度提高了67%。所有訓練都在單個8xH100節點上完成,UNet總訓練約需2000個H100 GPU小時。
角色相似度判定模型
- 該模型是基於Swin Base Multi Fractal 1k微調的Swin Transformer多標籤分類模型,該模型在Multi Fractal Images上進行了預訓練。
- 訓練數據是Mitsua Japanese CLIP model的一個子集。
預期用途
- 生成用於進一步創意創作的藝術作品
- 生成模型的研究或教育
非預期用途
以任何方式侵犯他人權利(版權、公開權、隱私權等)或對他人造成傷害均屬於對該模型的濫用,包括但不限於:
- 歧視、誹謗或侮辱他人,損害其名譽或信譽。
- 侵犯或可能侵犯他人的知識產權或隱私權。
- 傳播不公正地損害他人利益的信息或內容。
- 傳播虛假信息或內容。
請閱讀Mitsua Likes BY - NC "Prohibitions"瞭解更多詳情。
訓練數據
- CLIP訓練數據:請參閱Mitsua Japanese CLIP模型卡片
- 生成模型訓練數據:我們的數據集是選擇加入/開放許可數據和公共領域/CC0數據的混合。在訓練前,會根據元數據和標題進行預過濾,以排除潛在的侵權、有害或不適合工作場所的數據。
- "Mitsua Likes"數據集:來自選擇加入的貢獻者的許可數據。所有貢獻者在加入時都經過篩選,所有提交的圖像都經過人工驗證。使用AI生成內容檢測器排除潛在的AI生成圖像。
- VRM Color Concept 550K(CC BY - NC 4.0,我們整理了這個數據集)
- Safe Commons PD 3M(CC BY - SA 4.0,我們整理了這個數據集)
- Art Museums PD Dataset(CC BY 4.0,我們整理了這個數據集)
免責聲明
- 生成結果可能非常不準確、有害或有偏差。該模型是為了研究僅使用相對較小的許可數據可達到的性能而開發的,不適合需要高生成準確性的用例。ELAN MITSUA Project / Abstract Engine對因使用該模型造成的任何直接或間接損失不承擔責任。
🔧 技術細節
模型架構設計
- CLIP文本編碼器:採用12層掩碼文本轉換器,使用具有64k詞彙表的sentencepiece分詞器,最大長度為64個標記。
- VAE:使用基於公式的小波損失進行訓練,確保不依賴ImageNet數據。VAE解碼器經過微調,可以嵌入不可見水印。
- UNet:架構參考SDXL的UNet,但減少了參數數量以適應小數據集。採用漸進式分辨率訓練和縱橫比桶訓練。
- 角色相似度判定模型:基於Swin Transformer的多標籤分類模型,用於檢查生成圖像是否與某些許可的虛構角色相似。
訓練優化策略
- 訓練數據篩選:使用元數據和標題進行預過濾,排除潛在的侵權、有害或不適合工作場所的數據。
- 訓練速度提升:通過將UNet和VAE編碼器處理分配到不同的GPU上,最小化UNet同步開銷,使UNet訓練速度提高了67%。
📄 許可證
本模型採用Mitsua Likes 署名 - 非商業許可(英文) / Mitsua Likes 表示 - 非営利ライセンス(日文)。生成結果需標註"Mitsua Likes",商用僅限個人創作目的,禁止用於訓練其他模型。企業商用請聯繫我們。
🌟 貢獻者致謝
贊助商老師
- 霧太郎/HAnS N Erhard老師
- pikurusu39老師
- ムスビイト老師
- 夢前黎 / つくよみちゃんプロジェクト老師
- Hussini老師
- 力ナディス老師
- るな老師
感謝你們一直以來的支持!
所有Mitsua貢獻者
- 霧太郎/HAnS N Erhard, pikurusu39, Hussini, 燈坂アキラ, ムスビイト, ネセヨレワ, 亞襲, E - Ken, とまこ, Nr. N, RI - YAnks, mkbt, 最中亜梨香/中森あか, 夢観士, KIrishusei, 長岡キヘイ, username_Kk32056, 相生創, 柊 華久椰, nog, 加熱九真, amabox, 野々村のの, 嘯(しゃお), 夢前黎 / つくよみちゃんプロジェクト, みきうさぎ, るな, テラ リソース / Tera Resource (素材系サークル), 力ナディス, とあ, 莉子, Roach = Jinx, ging ging.jpeg, 毛玉, 寢てる貓, ぽーたー, やえした みえ, mizuchi, 262111, 乙幡皇鬥羽, ゆう, とどめの35番, WAYA, 明煉瓦, 桐生星斗(投稿物生成物使用自由), rcc, ask, L, 弐人, 石川すゐす, Sulphuriy, 602e, 中屋, IRICOMIX, 琵來山まろり(畫像加工可), とりとめ, cha, 鏡雙司, YR, えれいた, mariedoi, あると, あああ, らどん, netai98, 脂質, つあ🌠, ろすえん, 善良, UranosEBi, lenbrant, 長谷川, 輝竜司 / citrocube, 詩原るいか, 末広うた, 翠泉, 月波 清火, ゆぬ, 駒込ぴぺっこ, 原動機, ふわふわわ
- (敬稱略)
- 最新Mitsua貢獻者致謝
👥 官方授權角色
我們已獲得官方許可,對以下日本虛構角色的官方提供圖像及選擇加入的貢獻者的粉絲藝術作品進行訓練:
⚠️ 重要提示
- 生成結果可能不準確、有害或有偏差,不適合需要高生成準確性的場景。
- 使用該模型時,需遵守Mitsua Likes BY - NC "Prohibitions"的規定,避免侵犯他人權利。
💡 使用建議
- 在使用模型生成圖像後,務必檢查相似性判定AI的結果,以確保生成圖像不侵犯他人版權。
- 對於企業商用需求,請通過聯繫我們獲取詳細信息。
Stable Diffusion V1 5
Openrail
穩定擴散是一種潛在的文本到圖像擴散模型,能夠根據任何文本輸入生成逼真的圖像。
圖像生成
S
stable-diffusion-v1-5
3.7M
518
Stable Diffusion Inpainting
Openrail
基於穩定擴散的文本到圖像生成模型,具備圖像修復能力
圖像生成
S
stable-diffusion-v1-5
3.3M
56
Stable Diffusion Xl Base 1.0
SDXL 1.0是基於擴散的文本生成圖像模型,採用專家集成的潛在擴散流程,支持高分辨率圖像生成
圖像生成
S
stabilityai
2.4M
6,545
Stable Diffusion V1 4
Openrail
穩定擴散是一種潛在文本到圖像擴散模型,能夠根據任意文本輸入生成逼真圖像。
圖像生成
S
CompVis
1.7M
6,778
Stable Diffusion Xl Refiner 1.0
SD-XL 1.0優化器模型是Stability AI開發的圖像生成模型,專為提升SDXL基礎模型生成的圖像質量而設計,特別擅長最終去噪步驟處理。
圖像生成
S
stabilityai
1.1M
1,882
Stable Diffusion 2 1
基於擴散的文本生成圖像模型,支持通過文本提示生成和修改圖像
圖像生成
S
stabilityai
948.75k
3,966
Stable Diffusion Xl 1.0 Inpainting 0.1
基於Stable Diffusion XL的潛在文本到圖像擴散模型,具備通過遮罩進行圖像修復的功能
圖像生成
S
diffusers
673.14k
334
Stable Diffusion 2 Base
基於擴散的文生圖模型,可根據文本提示生成高質量圖像
圖像生成
S
stabilityai
613.60k
349
Playground V2.5 1024px Aesthetic
其他
開源文生圖模型,能生成1024x1024分辨率及多種縱橫比的美學圖像,在美學質量上處於開源領域領先地位。
圖像生成
P
playgroundai
554.94k
723
Sd Turbo
SD-Turbo是一款高速文本生成圖像模型,僅需單次網絡推理即可根據文本提示生成逼真圖像。該模型作為研究原型發佈,旨在探索小型蒸餾文本生成圖像模型。
圖像生成
S
stabilityai
502.82k
380
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98