Mitsua Likes
模型简介
该模型专注于生成动漫风格简单肖像和风景画,采用从零开始训练的架构,不依赖任何预训练模型知识。
模型特点
公平训练认证
已获得Fairly Trained认证,确保仅使用授权数据进行训练
从零训练架构
整个模型架构均为从零开始训练,不依赖任何预训练模型知识
动漫风格专精
在生成动漫风格简单肖像和风景画等特定领域表现出色
多语言支持
支持日语和英语提示词输入
版权保护机制
内置角色相似性判定模型和隐形水印技术
模型能力
文本到图像生成
动漫风格图像生成
多语言提示理解
简单肖像创作
风景画生成
使用案例
艺术创作
动漫角色创作
生成简单动漫风格角色肖像
适合个人非商业用途的角色设计
风景画生成
根据文字描述生成动漫风格风景
可用于艺术创作灵感启发
研究教育
生成模型研究
研究小规模授权数据训练模型的性能
🚀 Mitsua Likes:基于用户“喜好”数据训练的文生图扩散模型
Mitsua Likes是一款支持日语和英语的文生图潜在扩散模型,专为AI VTuber絵藍ミツア打造。它仅使用明确许可、开放许可和公共领域的数据进行训练,不依赖任何未授权的图像或文本数据集,具有较高的合规性和创新性。该模型在特定领域的图像生成上表现出色,如动漫风格的简单肖像和风景。
🚀 快速开始
安装Python包
pip install transformers sentencepiece diffusers
验证版本如下:
transformers==4.44.2
diffusers==0.31.0
sentencepiece==0.2.0
运行代码
from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16
pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)
# 日语或英语提示词
prompt = "滝の中の絵藍ミツア、先生アート"
# prompt = "elanmitsua in waterfall, sensei art, analog, impressionism painting"
negative_prompt = "elan doodle, lowres"
ret = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=5.0,
guidance_rescale=0.7,
width=768,
height=768,
num_inference_steps=40,
)
# 务必检查相似性判定AI的结果
# Please check similarity detection model output
print("Similarity Restriction:", ret.detected_public_fictional_characters[0])
print("Similarity Measure:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
print(f"{k} : {v:.3%}")
image = ret.images[0]
✨ 主要特性
- 数据合规:仅使用明确许可、开放许可和公共领域的数据进行训练,不使用其他预训练模型的合成数据,不依赖未授权的图像或文本数据集。
- 从头训练:模型的整个架构(CLIP文本编码器、VAE和UNet)完全从头开始训练,不使用任何预训练模型的知识。
- 特定领域擅长:虽然对大多数现代概念和复杂提示的处理能力有限,但在生成特定类型的图像(如简单的动漫风格肖像和风景)方面表现出色。
- 版权认证:获得了美国非营利组织Fairly Trained的认证,表明该模型未在未经许可的受版权保护作品上进行训练。
📦 安装指南
安装所需的Python包:
pip install transformers sentencepiece diffusers
验证版本如下:
transformers==4.44.2
diffusers==0.31.0
sentencepiece==0.2.0
💻 使用示例
基础用法
from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16
pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)
# 日语或英语提示词
prompt = "滝の中の絵藍ミツア、先生アート"
# prompt = "elanmitsua in waterfall, sensei art, analog, impressionism painting"
negative_prompt = "elan doodle, lowres"
ret = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=5.0,
guidance_rescale=0.7,
width=768,
height=768,
num_inference_steps=40,
)
# 务必检查相似性判定AI的结果
# Please check similarity detection model output
print("Similarity Restriction:", ret.detected_public_fictional_characters[0])
print("Similarity Measure:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
print(f"{k} : {v:.3%}")
image = ret.images[0]
📚 详细文档
模型详情
属性 | 详情 |
---|---|
开发者 | ELAN MITSUA Project / Abstract Engine |
模型类型 | 文生图潜在扩散模型 |
语言 | 日语和英语 |
许可证 | Mitsua Likes 署名 - 非商业许可(英文) / Mitsua Likes 表示 - 非営利ライセンス(日文)。生成结果需标注"Mitsua Likes",商用仅限个人创作目的,禁止用于训练其他模型。企业商用请联系我们。 |
模型架构
CLIP文本编码器
- 12层掩码文本转换器
- 分词器:具有64k词汇表的sentencepiece分词器
- 最大长度:64个标记
- 此文本编码器来自Mitsua Japanese CLIP
VAE
- 使用基于公式的小波损失进行训练,确保不依赖任何ImageNet数据。
- VAE解码器经过微调,可以在图像中嵌入不可见水印,参考了The Stable Signature论文,但基于自己的实现。
- 通过将水印处理放在VAE中而不是作为后处理,使得在生成图像时无法去除水印,便于区分图像是否由Mitsua Likes生成。
- 潜在通道数:8
- 注意:此仓库的VAE编码器权重已初始化,以防止未经授权的微调。如需VAE编码器权重,请从My Mitsua Likes Waitlist Registration申请。
- 总训练步数:280k步,批次大小240,分辨率256x256,约需800个RTX4090小时。
UNet
- UNet架构大量参考了SDXL的UNet,但根据Scalability survey by Hao Li et al减少了参数数量,以适应相对较小的训练数据规模。
- 训练过程与现有扩散模型基本相同,采用渐进式分辨率训练,并以纵横比桶训练结束。
- UNet训练是最耗费计算资源的部分,为了实现预算内训练,需要加快UNet训练速度。
- 通过将UNet和VAE编码器处理分配到不同的GPU上,并将UNet训练资源集中在较少的GPU上,最小化了UNet同步开销,使UNet训练速度提高了67%。所有训练都在单个8xH100节点上完成,UNet总训练约需2000个H100 GPU小时。
角色相似度判定模型
- 该模型是基于Swin Base Multi Fractal 1k微调的Swin Transformer多标签分类模型,该模型在Multi Fractal Images上进行了预训练。
- 训练数据是Mitsua Japanese CLIP model的一个子集。
预期用途
- 生成用于进一步创意创作的艺术作品
- 生成模型的研究或教育
非预期用途
以任何方式侵犯他人权利(版权、公开权、隐私权等)或对他人造成伤害均属于对该模型的滥用,包括但不限于:
- 歧视、诽谤或侮辱他人,损害其名誉或信誉。
- 侵犯或可能侵犯他人的知识产权或隐私权。
- 传播不公正地损害他人利益的信息或内容。
- 传播虚假信息或内容。
请阅读Mitsua Likes BY - NC "Prohibitions"了解更多详情。
训练数据
- CLIP训练数据:请参阅Mitsua Japanese CLIP模型卡片
- 生成模型训练数据:我们的数据集是选择加入/开放许可数据和公共领域/CC0数据的混合。在训练前,会根据元数据和标题进行预过滤,以排除潜在的侵权、有害或不适合工作场所的数据。
- "Mitsua Likes"数据集:来自选择加入的贡献者的许可数据。所有贡献者在加入时都经过筛选,所有提交的图像都经过人工验证。使用AI生成内容检测器排除潜在的AI生成图像。
- VRM Color Concept 550K(CC BY - NC 4.0,我们整理了这个数据集)
- Safe Commons PD 3M(CC BY - SA 4.0,我们整理了这个数据集)
- Art Museums PD Dataset(CC BY 4.0,我们整理了这个数据集)
免责声明
- 生成结果可能非常不准确、有害或有偏差。该模型是为了研究仅使用相对较小的许可数据可达到的性能而开发的,不适合需要高生成准确性的用例。ELAN MITSUA Project / Abstract Engine对因使用该模型造成的任何直接或间接损失不承担责任。
🔧 技术细节
模型架构设计
- CLIP文本编码器:采用12层掩码文本转换器,使用具有64k词汇表的sentencepiece分词器,最大长度为64个标记。
- VAE:使用基于公式的小波损失进行训练,确保不依赖ImageNet数据。VAE解码器经过微调,可以嵌入不可见水印。
- UNet:架构参考SDXL的UNet,但减少了参数数量以适应小数据集。采用渐进式分辨率训练和纵横比桶训练。
- 角色相似度判定模型:基于Swin Transformer的多标签分类模型,用于检查生成图像是否与某些许可的虚构角色相似。
训练优化策略
- 训练数据筛选:使用元数据和标题进行预过滤,排除潜在的侵权、有害或不适合工作场所的数据。
- 训练速度提升:通过将UNet和VAE编码器处理分配到不同的GPU上,最小化UNet同步开销,使UNet训练速度提高了67%。
📄 许可证
本模型采用Mitsua Likes 署名 - 非商业许可(英文) / Mitsua Likes 表示 - 非営利ライセンス(日文)。生成结果需标注"Mitsua Likes",商用仅限个人创作目的,禁止用于训练其他模型。企业商用请联系我们。
🌟 贡献者致谢
赞助商老师
- 霧太郎/HAnS N Erhard老师
- pikurusu39老师
- ムスビイト老师
- 夢前黎 / つくよみちゃんプロジェクト老师
- Hussini老师
- 力ナディス老师
- るな老师
感谢你们一直以来的支持!
所有Mitsua贡献者
- 霧太郎/HAnS N Erhard, pikurusu39, Hussini, 灯坂アキラ, ムスビイト, ネセヨレワ, 亞襲, E - Ken, とまこ, Nr. N, RI - YAnks, mkbt, 最中亜梨香/中森あか, 夢観士, KIrishusei, 長岡キヘイ, username_Kk32056, 相生創, 柊 華久椰, nog, 加熱九真, amabox, 野々村のの, 嘯(しゃお), 夢前黎 / つくよみちゃんプロジェクト, みきうさぎ, るな, テラ リソース / Tera Resource (素材系サークル), 力ナディス, とあ, 莉子, Roach = Jinx, ging ging.jpeg, 毛玉, 寝てる猫, ぽーたー, やえした みえ, mizuchi, 262111, 乙幡皇斗羽, ゆう, とどめの35番, WAYA, 明煉瓦, 桐生星斗(投稿物生成物使用自由), rcc, ask, L, 弐人, 石川すゐす, Sulphuriy, 602e, 中屋, IRICOMIX, 琵來山まろり(画像加工可), とりとめ, cha, 鏡双司, YR, えれいた, mariedoi, あると, あああ, らどん, netai98, 脂質, つあ🌠, ろすえん, 善良, UranosEBi, lenbrant, 長谷川, 輝竜司 / citrocube, 詩原るいか, 末広うた, 翠泉, 月波 清火, ゆぬ, 駒込ぴぺっこ, 原動機, ふわふわわ
- (敬称略)
- 最新Mitsua贡献者致谢
👥 官方授权角色
我们已获得官方许可,对以下日本虚构角色的官方提供图像及选择加入的贡献者的粉丝艺术作品进行训练:
⚠️ 重要提示
- 生成结果可能不准确、有害或有偏差,不适合需要高生成准确性的场景。
- 使用该模型时,需遵守Mitsua Likes BY - NC "Prohibitions"的规定,避免侵犯他人权利。
💡 使用建议
- 在使用模型生成图像后,务必检查相似性判定AI的结果,以确保生成图像不侵犯他人版权。
- 对于企业商用需求,请通过联系我们获取详细信息。
Stable Diffusion V1 5
Openrail
稳定扩散是一种潜在的文本到图像扩散模型,能够根据任何文本输入生成逼真的图像。
图像生成
S
stable-diffusion-v1-5
3.7M
518
Stable Diffusion Inpainting
Openrail
基于稳定扩散的文本到图像生成模型,具备图像修复能力
图像生成
S
stable-diffusion-v1-5
3.3M
56
Stable Diffusion Xl Base 1.0
SDXL 1.0是基于扩散的文本生成图像模型,采用专家集成的潜在扩散流程,支持高分辨率图像生成
图像生成
S
stabilityai
2.4M
6,545
Stable Diffusion V1 4
Openrail
稳定扩散是一种潜在文本到图像扩散模型,能够根据任意文本输入生成逼真图像。
图像生成
S
CompVis
1.7M
6,778
Stable Diffusion Xl Refiner 1.0
SD-XL 1.0优化器模型是Stability AI开发的图像生成模型,专为提升SDXL基础模型生成的图像质量而设计,特别擅长最终去噪步骤处理。
图像生成
S
stabilityai
1.1M
1,882
Stable Diffusion 2 1
基于扩散的文本生成图像模型,支持通过文本提示生成和修改图像
图像生成
S
stabilityai
948.75k
3,966
Stable Diffusion Xl 1.0 Inpainting 0.1
基于Stable Diffusion XL的潜在文本到图像扩散模型,具备通过遮罩进行图像修复的功能
图像生成
S
diffusers
673.14k
334
Stable Diffusion 2 Base
基于扩散的文生图模型,可根据文本提示生成高质量图像
图像生成
S
stabilityai
613.60k
349
Playground V2.5 1024px Aesthetic
其他
开源文生图模型,能生成1024x1024分辨率及多种纵横比的美学图像,在美学质量上处于开源领域领先地位。
图像生成
P
playgroundai
554.94k
723
Sd Turbo
SD-Turbo是一款高速文本生成图像模型,仅需单次网络推理即可根据文本提示生成逼真图像。该模型作为研究原型发布,旨在探索小型蒸馏文本生成图像模型。
图像生成
S
stabilityai
502.82k
380
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98