🚀 Taiyi-Stable-Diffusion-1B-Chinese-v0.1
Taiyi-Stable-Diffusion-1B-Chinese-v0.1是首個開源的中文Stable Diffusion動漫模型,基於100萬篩選過的動漫中文圖文對訓練,可用於文生圖、風格遷移等多模態任務。
🚀 快速開始
環境準備
本模型非常推薦使用webui的方式使用,webui提供了可視化的界面加上一些高級修圖、超分功能。你可以參考 Taiyi Stable Difffusion WebUI 進行配置。
半精度推理(CUDA)
添加 torch_dtype=torch.float16
和 device_map="auto"
可以快速加載 FP16 的權重,以加快推理速度。更多信息見 the optimization docs。
import torch
from diffusers import StableDiffusionPipeline
torch.backends.cudnn.benchmark = True
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1", torch_dtype=torch.float16)
pipe.to('cuda')
prompt = '1個女孩,綠色頭髮,毛衣,看向閱圖者,上半身,帽子,戶外,下雪,高領毛衣'
image = pipe(prompt, guidance_scale=7.5).images[0]
image.save("1個女孩.png")
更多使用說明
模型微調
✨ 主要特性
- 中文支持:首個開源的中文Stable Diffusion動漫模型,基於大量中文圖文對訓練,對中文語境有更好的理解和生成效果。
- 多模態應用:可進行文生圖、風格遷移等多模態任務,滿足不同的創意需求。
- 持續優化:模型為初步版本,後續會持續更新優化並開源。
📦 安裝指南
文檔未提及具體安裝步驟,可參考 Taiyi Stable Difffusion WebUI 進行環境配置。
💻 使用示例
基礎用法
以下是一個文生圖的基礎示例:
1個女孩,綠眼,棒球帽,金色頭髮,閉嘴,帽子,看向閱圖者,短髮,簡單背景,單人,上半身,T恤
Negative prompt: 水彩,漫畫,掃描件,簡樸的畫作,動畫截圖,3D,像素風,原畫,草圖,手繪,鉛筆
Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 3900970600, Size: 512x512, Model hash: 7ab6852a
生成圖片的圖片是512 * 512(大小為318kb):

高級用法
超分處理
善用超分模型可以提升圖片質量。例如在webui裡面選擇extra裡的R-ESRGAN 4x+ Anime6B模型對圖片質量進行超分:
- 原始圖片:512 * 512(大小為318kb)

- 超分模型選擇:

- 超分後圖片:2048 * 2048(大小為2.6Mb)

風格遷移與文生圖示例
類型 |
prompt1 |
prompt2 |
風格遷移 |
- |
- |
展示圖片 |
 |
- |
文生圖 |
1個男生,帥氣,微笑,看著閱圖者,簡單背景,白皙皮膚, 上半身,襯衫,短髮,單人 |
1個女孩,綠色頭髮,毛衣,看向閱圖者,上半身,帽子,戶外,下雪,高領毛衣 |
展示圖片 |
 |
 |
文生圖 |
戶外,天空,雲,藍天,無人,多雲的天空,風景,日出,草原 |
室內,杯子,書,無人,窗,床,椅子,桌子,瓶子,窗簾,陽光, 風景,盤子,木地板,書架,蠟燭,架子,書堆,綠植,梯子,地毯,小地毯 |
展示圖片 |
 |
 |
文生圖 |
戶外,天空,水,樹,無人,夜晚,建築,風景,反射,燈籠,船舶, 建築學,燈籠,船,反射水,東亞建築 |
建築,科幻,城市,城市風景,摩天大樓,賽博朋克,人群 |
展示圖片 |
 |
 |
文生圖 |
無人,動物,(貓:1.5),高清,棕眼 |
無人,動物,(兔子:1.5),高清,棕眼 |
展示圖片 |
 |
 |
📚 詳細文檔
模型分類
屬性 |
詳情 |
需求 |
特殊 |
任務 |
多模態 |
系列 |
太乙 |
模型 |
Stable Diffusion |
參數 |
1B |
額外 |
Chinese |
模型信息
我們將兩份動漫數據集(100萬低質量數據和1萬高質量數據),基於 IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1 模型進行了兩階段的微調訓練,計算開銷是4 x A100 訓練了大約100小時。該版本只是一個初步的版本,我們將持續優化並開源後續模型,歡迎交流。
🔧 技術細節
本模型基於Stable Diffusion架構,使用了100萬篩選過的動漫中文圖文對進行訓練。在訓練過程中,採用了兩階段微調訓練的方法,使用4 x A100進行了約100小時的訓練。
📄 許可證
本模型採用 CreativeML OpenRAIL-M 許可證。在使用模型前,你需要閱讀完整的許可證信息:https://huggingface.co/spaces/CompVis/stable-diffusion-license。通過點擊“Access repository”,你同意你的 聯繫信息(電子郵件地址和用戶名)可以與模型作者共享。
📚 引用
如果您在您的工作中使用了我們的模型,可以引用我們的總論文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我們的網站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}
⚠️ 重要提示
- 你不能使用該模型故意生成或分享非法或有害的輸出或內容。
- IDEA-CCNL對您生成的輸出不主張任何權利,您可以自由使用它們,並對其使用負責,且不得違反許可證中的規定。
- 您可以重新分發模型權重並將模型用於商業用途和/或作為服務。如果這樣做,請務必包含與許可證中相同的使用限制,並向所有用戶提供一份CreativeML OpenRAIL-M許可證副本。
💡 使用建議
善用超分模型可以顯著提升生成圖片的質量。在webui中選擇合適的超分模型,如R-ESRGAN 4x+ Anime6B,可以將低分辨率圖片轉換為高分辨率的超高清大圖。