Mitsua Likes开源文本到图像模型 - 免费实现日英双语艺术图像创作

首页

Mitsua Likes

由 Mitsua 开发

Mitsua Likes是一款基于共创艺术理念开发的日语/英语文本到图像潜在扩散模型，仅使用明确授权许可的数据进行训练，已获得公平训练认证。

图像生成支持多种语言开源协议:其他 #合规授权训练 #动漫风格生成 #日语英语双支持

下载量 29

发布时间 : 12/16/2024

模型简介

该模型专注于生成动漫风格简单肖像和风景画，采用从零开始训练的架构，不依赖任何预训练模型知识。

模型特点

公平训练认证

已获得Fairly Trained认证，确保仅使用授权数据进行训练

从零训练架构

整个模型架构均为从零开始训练，不依赖任何预训练模型知识

动漫风格专精

在生成动漫风格简单肖像和风景画等特定领域表现出色

多语言支持

支持日语和英语提示词输入

版权保护机制

内置角色相似性判定模型和隐形水印技术

模型能力

文本到图像生成

动漫风格图像生成

多语言提示理解

简单肖像创作

风景画生成

使用案例

艺术创作

动漫角色创作

生成简单动漫风格角色肖像

适合个人非商业用途的角色设计

风景画生成

根据文字描述生成动漫风格风景

可用于艺术创作灵感启发

研究教育

生成模型研究

研究小规模授权数据训练模型的性能

🚀 Mitsua Likes：基于用户“喜好”数据训练的文生图扩散模型

Mitsua Likes是一款支持日语和英语的文生图潜在扩散模型，专为AI VTuber絵藍ミツア打造。它仅使用明确许可、开放许可和公共领域的数据进行训练，不依赖任何未授权的图像或文本数据集，具有较高的合规性和创新性。该模型在特定领域的图像生成上表现出色，如动漫风格的简单肖像和风景。

🚀 快速开始

安装Python包

pip install transformers sentencepiece diffusers

验证版本如下：

transformers==4.44.2
diffusers==0.31.0
sentencepiece==0.2.0

运行代码

from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16

pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)

# 日语或英语提示词
prompt = "滝の中の絵藍ミツア、先生アート"
# prompt = "elanmitsua in waterfall, sensei art, analog, impressionism painting"
negative_prompt = "elan doodle, lowres"

ret = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    guidance_scale=5.0,
    guidance_rescale=0.7,
    width=768,
    height=768,
    num_inference_steps=40,
)

# 务必检查相似性判定AI的结果
# Please check similarity detection model output
print("Similarity Restriction:", ret.detected_public_fictional_characters[0])
print("Similarity Measure:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
    print(f"{k} : {v:.3%}")

image = ret.images[0]

✨ 主要特性

数据合规：仅使用明确许可、开放许可和公共领域的数据进行训练，不使用其他预训练模型的合成数据，不依赖未授权的图像或文本数据集。
从头训练：模型的整个架构（CLIP文本编码器、VAE和UNet）完全从头开始训练，不使用任何预训练模型的知识。
特定领域擅长：虽然对大多数现代概念和复杂提示的处理能力有限，但在生成特定类型的图像（如简单的动漫风格肖像和风景）方面表现出色。
版权认证：获得了美国非营利组织Fairly Trained的认证，表明该模型未在未经许可的受版权保护作品上进行训练。

📦 安装指南

安装所需的Python包：

pip install transformers sentencepiece diffusers

验证版本如下：

transformers==4.44.2
diffusers==0.31.0
sentencepiece==0.2.0

💻 使用示例

基础用法

from diffusers import DiffusionPipeline
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.float16

pipe = DiffusionPipeline.from_pretrained("Mitsua/mitsua-likes", trust_remote_code=True).to(device, dtype=dtype)

# 日语或英语提示词
prompt = "滝の中の絵藍ミツア、先生アート"
# prompt = "elanmitsua in waterfall, sensei art, analog, impressionism painting"
negative_prompt = "elan doodle, lowres"

ret = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    guidance_scale=5.0,
    guidance_rescale=0.7,
    width=768,
    height=768,
    num_inference_steps=40,
)

# 务必检查相似性判定AI的结果
# Please check similarity detection model output
print("Similarity Restriction:", ret.detected_public_fictional_characters[0])
print("Similarity Measure:")
for k, v in ret.detected_public_fictional_characters_info[0].items():
    print(f"{k} : {v:.3%}")

image = ret.images[0]

📚 详细文档

模型详情

属性	详情
开发者	ELAN MITSUA Project / Abstract Engine
模型类型	文生图潜在扩散模型
语言	日语和英语
许可证	Mitsua Likes 署名 - 非商业许可（英文） / Mitsua Likes 表示 - 非営利ライセンス（日文）。生成结果需标注"Mitsua Likes"，商用仅限个人创作目的，禁止用于训练其他模型。企业商用请联系我们。

模型架构

CLIP文本编码器

12层掩码文本转换器
分词器：具有64k词汇表的sentencepiece分词器
最大长度：64个标记
此文本编码器来自Mitsua Japanese CLIP

VAE

使用基于公式的小波损失进行训练，确保不依赖任何ImageNet数据。
VAE解码器经过微调，可以在图像中嵌入不可见水印，参考了The Stable Signature论文，但基于自己的实现。
通过将水印处理放在VAE中而不是作为后处理，使得在生成图像时无法去除水印，便于区分图像是否由Mitsua Likes生成。
潜在通道数：8
注意：此仓库的VAE编码器权重已初始化，以防止未经授权的微调。如需VAE编码器权重，请从My Mitsua Likes Waitlist Registration申请。
总训练步数：280k步，批次大小240，分辨率256x256，约需800个RTX4090小时。

UNet

UNet架构大量参考了SDXL的UNet，但根据Scalability survey by Hao Li et al减少了参数数量，以适应相对较小的训练数据规模。
训练过程与现有扩散模型基本相同，采用渐进式分辨率训练，并以纵横比桶训练结束。
UNet训练是最耗费计算资源的部分，为了实现预算内训练，需要加快UNet训练速度。
通过将UNet和VAE编码器处理分配到不同的GPU上，并将UNet训练资源集中在较少的GPU上，最小化了UNet同步开销，使UNet训练速度提高了67%。所有训练都在单个8xH100节点上完成，UNet总训练约需2000个H100 GPU小时。

角色相似度判定模型

该模型是基于Swin Base Multi Fractal 1k微调的Swin Transformer多标签分类模型，该模型在Multi Fractal Images上进行了预训练。
训练数据是Mitsua Japanese CLIP model的一个子集。

预期用途

生成用于进一步创意创作的艺术作品
生成模型的研究或教育

非预期用途

以任何方式侵犯他人权利（版权、公开权、隐私权等）或对他人造成伤害均属于对该模型的滥用，包括但不限于：

歧视、诽谤或侮辱他人，损害其名誉或信誉。
侵犯或可能侵犯他人的知识产权或隐私权。
传播不公正地损害他人利益的信息或内容。
传播虚假信息或内容。

请阅读Mitsua Likes BY - NC "Prohibitions"了解更多详情。

训练数据

CLIP训练数据：请参阅Mitsua Japanese CLIP模型卡片
生成模型训练数据：我们的数据集是选择加入/开放许可数据和公共领域/CC0数据的混合。在训练前，会根据元数据和标题进行预过滤，以排除潜在的侵权、有害或不适合工作场所的数据。
- "Mitsua Likes"数据集：来自选择加入的贡献者的许可数据。所有贡献者在加入时都经过筛选，所有提交的图像都经过人工验证。使用AI生成内容检测器排除潜在的AI生成图像。
- VRM Color Concept 550K（CC BY - NC 4.0，我们整理了这个数据集）
- Safe Commons PD 3M（CC BY - SA 4.0，我们整理了这个数据集）
- Art Museums PD Dataset（CC BY 4.0，我们整理了这个数据集）

免责声明

生成结果可能非常不准确、有害或有偏差。该模型是为了研究仅使用相对较小的许可数据可达到的性能而开发的，不适合需要高生成准确性的用例。ELAN MITSUA Project / Abstract Engine对因使用该模型造成的任何直接或间接损失不承担责任。

🔧 技术细节

模型架构设计

CLIP文本编码器：采用12层掩码文本转换器，使用具有64k词汇表的sentencepiece分词器，最大长度为64个标记。
VAE：使用基于公式的小波损失进行训练，确保不依赖ImageNet数据。VAE解码器经过微调，可以嵌入不可见水印。
UNet：架构参考SDXL的UNet，但减少了参数数量以适应小数据集。采用渐进式分辨率训练和纵横比桶训练。
角色相似度判定模型：基于Swin Transformer的多标签分类模型，用于检查生成图像是否与某些许可的虚构角色相似。

训练优化策略

训练数据筛选：使用元数据和标题进行预过滤，排除潜在的侵权、有害或不适合工作场所的数据。
训练速度提升：通过将UNet和VAE编码器处理分配到不同的GPU上，最小化UNet同步开销，使UNet训练速度提高了67%。

📄 许可证

本模型采用Mitsua Likes 署名 - 非商业许可（英文） / Mitsua Likes 表示 - 非営利ライセンス（日文）。生成结果需标注"Mitsua Likes"，商用仅限个人创作目的，禁止用于训练其他模型。企业商用请联系我们。

🌟 贡献者致谢

赞助商老师

霧太郎/HAnS N Erhard老师
pikurusu39老师
ムスビイト老师
夢前黎 / つくよみちゃんプロジェクト老师
Hussini老师
力ナディス老师
るな老师

感谢你们一直以来的支持！

所有Mitsua贡献者

霧太郎/HAnS N Erhard, pikurusu39, Hussini, 灯坂アキラ, ムスビイト, ネセヨレワ, 亞襲, E - Ken, とまこ, Nr. N, RI - YAnks, mkbt, 最中亜梨香/中森あか, 夢観士, KIrishusei, 長岡キヘイ, username_Kk32056, 相生創, 柊華久椰, nog, 加熱九真, amabox, 野々村のの, 嘯(しゃお), 夢前黎 / つくよみちゃんプロジェクト, みきうさぎ, るな, テラリソース / Tera Resource (素材系サークル), 力ナディス, とあ, 莉子, Roach = Jinx, ging ging.jpeg, 毛玉, 寝てる猫, ぽーたー, やえしたみえ, mizuchi, 262111, 乙幡皇斗羽, ゆう, とどめの35番, WAYA, 明煉瓦, 桐生星斗(投稿物生成物使用自由), rcc, ask, L, 弐人, 石川すゐす, Sulphuriy, 602e, 中屋, IRICOMIX, 琵來山まろり(画像加工可), とりとめ, cha, 鏡双司, YR, えれいた, mariedoi, あると, あああ, らどん, netai98, 脂質, つあ🌠, ろすえん, 善良, UranosEBi, lenbrant, 長谷川, 輝竜司 / citrocube, 詩原るいか, 末広うた, 翠泉, 月波清火, ゆぬ, 駒込ぴぺっこ, 原動機, ふわふわわ
(敬称略)
最新Mitsua贡献者致谢