🚀 siglip2-x256-explicit-content
siglip2-x256-explicit-contentは、「siglip2-base-patch16-256」からファインチューニングされたビジョン言語エンコーダモデルで、多クラス画像分類に特化しています。このモデルは「SiglipForImageClassification」アーキテクチャに基づいて構築され、画像内のコンテンツタイプを識別および分類するように訓練されており、特に露骨な、わいせつな、または安全なメディアのフィルタリングに役立ちます。

引用: SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features https://arxiv.org/pdf/2502.14786
🚀 クイックスタート
このモデルを使用する前に、必要な依存関係をインストールする必要があります。以下のコマンドを実行してください。
pip install -q transformers torch pillow gradio
✨ 主な機能
- 多クラス画像分類に特化したビジョン言語エンコーダモデルです。
- 画像内のコンテンツタイプを識別および分類し、露骨な、わいせつな、または安全なメディアのフィルタリングに役立ちます。
📦 インストール
必要な依存関係をインストールするには、以下のコマンドを実行します。
pip install -q transformers torch pillow gradio
💻 使用例
基本的な使用法
以下は、このモデルを使用して画像分類を行うPythonコードの例です。
import gradio as gr
from transformers import AutoImageProcessor, SiglipForImageClassification
from PIL import Image
import torch
model_name = "prithivMLmods/siglip2-x256-explicit-content"
model = SiglipForImageClassification.from_pretrained(model_name)
processor = AutoImageProcessor.from_pretrained(model_name)
id2label = {
"0": "Anime Picture",
"1": "Hentai",
"2": "Normal",
"3": "Pornography",
"4": "Enticing or Sensual"
}
def classify_explicit_content(image):
image = Image.fromarray(image).convert("RGB")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
probs = torch.nn.functional.softmax(logits, dim=1).squeeze().tolist()
prediction = {
id2label[str(i)]: round(probs[i], 3) for i in range(len(probs))
}
return prediction
iface = gr.Interface(
fn=classify_explicit_content,
inputs=gr.Image(type="numpy"),
outputs=gr.Label(num_top_classes=5, label="Predicted Content Type"),
title="siglip2-x256-explicit-content",
description="Classifies images into explicit, suggestive, or safe categories (e.g., Hentai, Pornography, Normal)."
)
if __name__ == "__main__":
iface.launch()
分類レポート
以下は、モデルの分類レポートです。
Classification Report:
precision recall f1-score support
Anime Picture 0.8940 0.8718 0.8827 5600
Hentai 0.8961 0.8935 0.8948 4180
Normal 0.9100 0.8895 0.8997 5503
Pornography 0.9496 0.9654 0.9574 5600
Enticing or Sensual 0.9132 0.9429 0.9278 5600
accuracy 0.9137 26483
macro avg 0.9126 0.9126 0.9125 26483
weighted avg 0.9135 0.9137 0.9135 26483
📚 ドキュメント
ラベル空間
このモデルは、各画像を以下のコンテンツカテゴリのいずれかに分類します。
Class 0: "Anime Picture"
Class 1: "Hentai"
Class 2: "Normal"
Class 3: "Pornography"
Class 4: "Enticing or Sensual"
想定される用途
このモデルは、以下のようなアプリケーションに使用されることを想定しています。
- コンテンツモデレーション: NSFWまたはわいせつなコンテンツを自動検出します。
- ペアレンタルコントロール: AIベースのフィルタリングを有効にして、安全なメディア閲覧を可能にします。
- データセット前処理: 研究またはデプロイ用の画像データセットをクリーニングおよび分類します。
- オンラインプラットフォーム: アップロードやユーザー生成メディアに対するコンテンツガイドラインを施行するのに役立ちます。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
