🚀 我的韩语稳定扩散模型 v1-5
本项目基于 runwayml/stable-diffusion-v1-5 模型,仅将文本编码器和分词器替换为我自己的 Bingsu/clip-vit-large-patch14-ko。如果你正在寻找一个在实际应用中表现出色的韩语扩散模型,可参考以下项目:
🚀 快速开始
安装依赖
pip install transformers accelerate>=0.14.0 diffusers>=0.7.2 ftfy
代码示例
import torch
from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
repo = "Bingsu/my-korean-stable-diffusion-v1-5"
euler_ancestral_scheduler = EulerAncestralDiscreteScheduler.from_config(repo, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(
repo, scheduler=euler_ancestral_scheduler, torch_dtype=torch.float16,
)
pipe.to("cuda")
生成图像
prompt = "화성에서 말을 타고 있는 우주인 사진"
seed = 23957
generator = torch.Generator("cuda").manual_seed(seed)
image = pipe(prompt, num_inference_steps=25, generator=generator).images[0]
显示图像
image

💻 使用示例
基础用法
prompt = "고퀄리티 하얀 고양이 사진"
seed = 46399
generator = torch.Generator("cuda").manual_seed(seed)
pipe(prompt, num_inference_steps=25, generator=generator).images[0]

高级用法
prompt = "고퀄리티 하얀 고양이 사진, 피아노를 치는 중"
seed = 12345
generator = torch.Generator("cuda").manual_seed(seed)
pipe(prompt, num_inference_steps=25, generator=generator).images[0]

prompt = "달과 별이 보이는 밤하늘을 배경으로 한 해변가 사진"
seed = 1234246
generator = torch.Generator("cuda").manual_seed(seed)
pipe(prompt, num_inference_steps=25, generator=generator).images[0]

📚 详细文档
直接使用
本模型仅用于研究目的,可能的研究领域和任务包括:
- 安全部署有可能生成有害内容的模型。
- 探究和理解生成模型的局限性和偏差。
- 生成艺术作品并应用于设计和其他艺术过程。
- 在教育或创意工具中的应用。
- 对生成模型的研究。
禁止用途
本模型不得用于故意创建或传播对他人造成敌对或疏离环境的图像。这包括生成人们可预见会感到不安、痛苦或冒犯的图像;或传播历史或当前刻板印象的内容。
超出适用范围的使用
本模型并非用于对人物或事件进行事实性或真实性的呈现,因此使用该模型生成此类内容超出了其能力范围。
滥用和恶意使用
使用该模型生成对个人残忍的内容属于对本模型的滥用。这包括但不限于:
- 生成贬低、非人化或以其他方式伤害他人或其环境、文化、宗教等的表现形式。
- 故意推广或传播歧视性内容或有害刻板印象。
- 在未经他人同意的情况下冒充他人。
- 未经可能看到该内容的人的同意而生成性内容。
- 虚假和误导性信息。
- 呈现严重暴力和血腥的内容。
- 违反版权或许可材料使用条款进行分享。
- 违反版权或许可材料使用条款对其进行修改后分享。
局限性和偏差
局限性
- 模型无法实现完美的照片级真实感。
- 模型无法渲染清晰可读的文本。
- 模型在涉及组合性的更困难任务上表现不佳,例如渲染与 “蓝色球体上的红色立方体” 对应的图像。
- 面部和人物的生成可能不够理想。
- 模型主要使用英文标题进行训练,在其他语言中的表现不佳。
- 模型的自动编码部分存在信息损失。
- 模型在大规模数据集 LAION-5B 上进行训练,该数据集包含成人内容,在没有额外安全机制和考虑的情况下不适合用于产品。
- 数据集未进行去重处理,因此对于训练数据中重复的图像,模型可能会出现一定程度的记忆现象。可通过 https://rom1504.github.io/clip-retrieval/ 搜索训练数据,以协助检测记忆的图像。
偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。Stable Diffusion v1 在 LAION-2B(en) 的子集上进行训练,该数据集主要包含英文描述的图像。使用其他语言的社区和文化的文本和图像可能未得到充分考虑,这影响了模型的整体输出,因为白人文化和西方文化往往被设定为默认标准。此外,模型使用非英文提示生成内容的能力明显不如使用英文提示。
安全模块
本模型的预期使用方式是结合 Diffusers 中的安全检查器。该检查器通过将模型输出与已知的硬编码 NSFW 概念进行比对来工作。为降低该过滤器被逆向工程的可能性,这些概念被故意隐藏。具体而言,检查器在图像生成后,在 CLIPTextModel
的嵌入空间中比较有害概念的类别概率。这些概念与生成的图像一起传入模型,并与每个 NSFW 概念的手工设计权重进行比较。
📄 许可证
本项目采用 CreativeML OpenRAIL-M 许可证。