模型概述
模型特點
模型能力
使用案例
🚀 日本穩定擴散模型卡
日本穩定擴散模型是一款專門針對日語的潛在文本到圖像擴散模型,能夠根據任何文本輸入生成逼真的圖像。該模型藉助強大的文本到圖像模型 Stable Diffusion 進行訓練。如需瞭解更多訓練方法相關信息,請參閱 訓練過程。
✨ 主要特性
- 能夠根據文本輸入生成逼真的圖像。
- 基於強大的 Stable Diffusion 模型進行訓練。
📦 安裝指南
首先,按照以下方式安裝我們的軟件包。該軟件包是對 🤗 的 Diffusers 庫 進行修改後,用於運行日本穩定擴散模型的。
pip install git+https://github.com/rinnakk/japanese-stable-diffusion
如果你之前沒有登錄過,請使用以下命令使用你的 HF Hub 令牌登錄:
huggingface-cli login
💻 使用示例
基礎用法
import torch
from torch import autocast
from diffusers import LMSDiscreteScheduler
from japanese_stable_diffusion import JapaneseStableDiffusionPipeline
model_id = "rinna/japanese-stable-diffusion"
device = "cuda"
# 這裡使用 K-LMS 調度器
scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)
pipe = JapaneseStableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, use_auth_token=True)
pipe = pipe.to(device)
prompt = "貓の肖像畫 油絵"
with autocast("cuda"):
image = pipe(prompt, guidance_scale=7.5)["sample"][0]
image.save("output.png")
注意:JapaneseStableDiffusionPipeline
與 diffusers 的 StableDiffusionPipeline
幾乎相同,但添加了一些代碼來正確初始化我們的模型。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
開發者 | Makoto Shing, Kei Sawada |
模型類型 | 基於擴散的文本到圖像生成模型 |
語言 | 日語 |
許可證 | CreativeML OpenRAIL M 許可證 是一種 Open RAIL M 許可證,改編自 BigScience 和 RAIL Initiative 在負責任的人工智能許可領域的聯合工作。另請參閱 關於 BLOOM Open RAIL 許可證的文章,本許可證基於該文章。 |
模型描述 | 這是一個可用於根據文本提示生成和修改圖像的模型。它是一個 潛在擴散模型 (LDM),使用 Stable Diffusion 作為預訓練模型。 |
更多信息資源 | 日本穩定擴散 GitHub 倉庫 |
濫用、惡意使用和超出範圍使用
注意:本節內容取自 DALLE - MINI 模型卡,但同樣適用於 Stable Diffusion v1。
該模型不應被用於故意創建或傳播會為人們營造敵對或排斥性環境的圖像。這包括生成人們可預見會感到不安、痛苦或冒犯的圖像;或傳播歷史或當前刻板印象的內容。
超出範圍使用
該模型並非用於對人物或事件進行事實或真實的呈現,因此使用該模型生成此類內容超出了該模型的能力範圍。
濫用和惡意使用
使用該模型生成對個人殘忍的內容屬於對該模型的濫用。這包括但不限於:
- 生成貶低、非人化或以其他方式傷害人們或其環境、文化、宗教等的表現形式。
- 故意推廣或傳播歧視性內容或有害的刻板印象。
- 在未經個人同意的情況下冒充他人。
- 在可能看到的人未同意的情況下生成色情內容。
- 虛假和誤導性信息
- 嚴重暴力和血腥場面的表現形式
- 違反版權或許可材料使用條款進行分享。
- 違反版權或許可材料使用條款對其進行修改後分享。
限制和偏差
限制
- 該模型無法實現完美的照片級逼真度。
- 該模型無法渲染清晰可讀的文本。
- 該模型在涉及組合性的更困難任務上表現不佳,例如渲染與 “藍色球體上的紅色立方體” 對應的圖像。
- 面部和人物通常可能無法正確生成。
- 該模型主要使用日語字幕進行訓練,在其他語言上的表現不佳。
- 模型的自動編碼部分存在信息損失。
- 該模型在大規模數據集 LAION - 5B 的一個子集上進行訓練,該數據集包含成人內容,在沒有額外安全機制和考慮的情況下不適合用於產品。
- 未使用額外措施對數據集進行去重。因此,我們觀察到對於訓練數據中重複的圖像存在一定程度的記憶現象。可以在 [https://rom1504.github.io/clip - retrieval/](https://rom1504.github.io/clip - retrieval/) 上搜索訓練數據,以協助檢測記憶的圖像。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。日本穩定擴散模型在包括 LAION - 5B 日語子集在內的日語數據集上進行訓練,這些數據集主要由日語描述的圖像組成。使用其他語言的社區和文化的文本和圖像可能未得到充分考慮。這會影響模型的整體輸出。此外,該模型使用非日語提示生成內容的能力明顯不如使用日語提示。
安全模塊
該模型的預期用途是與 Diffusers 中的 安全檢查器 一起使用。該檢查器通過將模型輸出與已知的硬編碼 NSFW 概念進行比對來工作。這些概念被故意隱藏,以降低對該過濾器進行逆向工程的可能性。具體來說,檢查器在圖像生成 之後,在 CLIPTextModel
的嵌入空間中比較有害概念的類別概率。這些概念與生成的圖像一起傳入模型,並與每個 NSFW 概念的手工設計權重進行比較。
訓練
訓練數據
我們使用以下數據集對模型進行訓練:
- 約 1 億張帶有日語字幕的圖像,包括 LAION - 5B 的日語子集。
訓練過程
日本穩定擴散模型與 Stable Diffusion 具有相同的架構,並使用 Stable Diffusion 進行訓練。由於 Stable Diffusion 在英語數據集上進行訓練,且 CLIP 分詞器主要用於英語,受 PITI 的啟發,我們分兩個階段將其轉換為特定語言的模型。
- 使用我們的日語分詞器從頭開始訓練一個特定於日語的文本編碼器,同時固定潛在擴散模型。此階段預計將日語字幕映射到 Stable Diffusion 的潛在空間。
- 聯合微調文本編碼器和潛在擴散模型。此階段預計更多地生成日式風格的圖像。
發佈日期
2022 年 9 月 9 日
如何引用
@misc{rinna-japanese-stable-diffusion,
title = {rinna/japanese-stable-diffusion},
author = {Shing, Makoto and Sawada, Kei},
url = {https://huggingface.co/rinna/japanese-stable-diffusion}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
參考文獻
@inproceedings{rombach2022high,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {6},
year = {2022},
pages = {10684-10695}
}
說明:本模型卡由 Makoto Shing 和 Kei Sawada 編寫,基於 Stable Diffusion v1 - 4 模型卡 和 DALL - E Mini 模型卡。
📄 許可證
本模型採用 CreativeML OpenRAIL M 許可證。在獲取此模型之前,需要了解以下內容:
此模型開放訪問,所有人均可使用,CreativeML OpenRAIL - M 許可證進一步規定了權利和使用方式。
CreativeML OpenRAIL 許可證規定:
- 您不能使用該模型故意生成或分享非法或有害的輸出或內容。
- rinna Co., Ltd. 對您生成的輸出不主張任何權利,您可以自由使用它們,並對其使用負責,且使用不得違反許可證中的規定。
- 您可以重新分發模型權重,並將該模型用於商業用途和/或作為服務。如果您這樣做,請務必包含與許可證中相同的使用限制,並向所有用戶分享一份 CreativeML OpenRAIL - M 許可證(請完整仔細閱讀許可證)。
請在此處閱讀完整的許可證:https://huggingface.co/spaces/CompVis/stable-diffusion-license
通過點擊下面的 “訪問倉庫”,您也同意您的 聯繫信息(電子郵件地址和用戶名)可以與模型作者共享。
請勾選以下選項:
- [ ] 我已閱讀許可證並同意其條款。









