🚀 安全CLIP(Safe-CLIP)模型卡
安全CLIP(Safe-CLIP)是一種增強型視覺語言模型,旨在降低人工智能應用中與不適宜工作場景(NSFW)內容相關的風險。該模型在論文《安全CLIP:從視覺語言模型中移除不適宜工作場景概念》中被首次提出。
安全CLIP基於CLIP模型進行微調,以優化語言和視覺概念之間的關聯,確保在文本到圖像以及圖像到文本的檢索和生成任務中輸出更加安全。
🚀 快速開始
使用Transformers庫
以下是使用Transformers庫調用安全CLIP的代碼片段:
>>> from transformers import CLIPModel
>>> model_id = "aimagelab/safeclip_vit-h_14"
>>> model = CLIPModel.from_pretrained(model_id)
✨ 主要特性
- 基於CLIP模型微調,專為降低NSFW內容風險而設計。
- 適用於多種視覺語言任務,如跨模態檢索、文本到圖像和圖像到文本生成。
- 與預訓練生成模型無縫協作,在不犧牲語義內容質量的前提下提供更安全的選擇。
📚 詳細文檔
NSFW定義
在我們的研究中,受這篇論文的啟發,我們將NSFW定義為一組有限且固定的概念,這些概念被認為對個人是不適當、冒犯性或有害的。這些概念分為七類:仇恨、騷擾、暴力、自我傷害、性、令人震驚的內容和非法活動。
模型細節
安全CLIP是CLIP模型的微調版本。模型的微調是通過ViSU(視覺安全與不安全)數據集完成的,該數據集在同一論文中被引入。
ViSU包含四元組元素:安全和NSFW的句子對以及相應的安全和NSFW圖像。你可以在HuggingFace的ViSU-文本頁面上找到ViSU數據集的文本部分。由於存在極其不適當的圖像,我們決定不發佈該數據集的視覺部分。這些圖像可能會對個人造成傷害和困擾。因此,發佈這部分數據集是不負責任的,也違背了確保人工智能技術安全和道德使用的原則。最終的模型將不適當的內容重定向到嵌入空間的安全區域,同時保留安全嵌入的完整性。
變體:安全CLIP有四個版本,以提高與一些最流行的用於圖像到文本(I2T)和文本到圖像(T2I)生成任務的視覺語言模型的兼容性。更多細節見下表:
模型名稱 |
與StableDiffusion的兼容性 |
與LLaVA的兼容性 |
safe-CLIP ViT-L-14 |
1.4 |
llama-2-13b-chat-lightning-preview |
safe-CLIP ViT-L-14-336px |
- |
1.5 - 1.6 |
safe-CLIP ViT-H-14 |
- |
- |
safe-CLIP SD 2.0 |
2.0 |
- |
模型發佈日期:2024年7月9日。
有關模型、訓練細節、數據集和評估的更多信息,請參考論文。你還可以在論文的倉庫中找到下游任務的示例代碼。
💻 使用示例
基礎用法
>>> from transformers import CLIPModel
>>> model_id = "aimagelab/safeclip_vit-h_14"
>>> model = CLIPModel.from_pretrained(model_id)
高級用法 - 零樣本分類示例
>>> from transformers import CLIPModel, CLIPProcessor
>>> from PIL import Image
>>> model_id = "aimagelab/safeclip_vit-h_14"
>>> model = CLIPModel.from_pretrained(model_id)
>>> processor = CLIPProcessor.from_pretrained("laion/CLIP-ViT-H-14-laion2B-s32B-b79K")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
>>> outputs = clip(**inputs)
>>> logits_per_image = outputs.logits_per_image
>>> probs = logits_per_image.softmax(dim=1)
📄 許可證
本模型採用CC BY-NC 4.0許可證。
📚 引用
請使用以下BibTeX引用此模型:
@article{poppi2024removing,
title={{Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models}},
author={Poppi, Samuele and Poppi, Tobia and Cocchi, Federico and Cornia, Marcella and Baraldi, Lorenzo and Cucchiara, Rita},
journal={arXiv preprint arXiv:2311.16254},
year={2024}
}