vit-base-nsfw-detectorオープンソース画像検出モデル - 画像に安全でない内容が含まれているか無料で検出

ホーム

Vit Base Nsfw Detector

AdamCoddによって開発

Vision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、画像がNSFW（不適切）コンテンツを含むかどうかを検出するために特別に設計されています。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #NSFW画像検出 #高い正解率(96.54%)#ViTアーキテクチャ

ダウンロード数 1.2M

リリース時間 : 1/3/2024

モデル概要

このモデルはgoogle/vit-base-patch16-384を微調整したバージョンで、画像をSFW（適切）またはNSFW（不適切）に分類するために使用されます。学習データには約25,000枚の画像（絵画、写真など）が含まれています。

モデル特徴

高い正解率

評価セットで正解率が96.54%、AUCが0.9948に達します。

保守的な分類戦略

モデルの学習時には保守的なアプローチが取られ、「セクシー」な画像をNSFWとして分類し、適切なコンテンツが誤って判断されないようにします。

多様な画像タイプのサポート

様々な画像タイプ（リアルな画像、3D画像、絵画）で学習されており、良好な汎化能力を持っています。

モデル能力

画像分類

NSFWコンテンツ検出

SFWコンテンツ検出

使用事例

コンテンツ審査

ソーシャルメディアのコンテンツフィルタリング

ユーザーがアップロードした画像がNSFWコンテンツを含むかどうかを自動的に検出し、プラットフォームのコンテンツ審査を支援します。

正解率96.54%で、人手による審査の負担を効果的に軽減できます。

安全な検索フィルタリング

検索エンジンや画像ライブラリで不適切な画像コンテンツをフィルタリングします。

高い正解率とAUC値により、フィルタリングの効果が保証されます。

🚀 vit-base-nsfw-detector

このモデルは、約25,000枚の画像（絵画、写真など）でvit-base-patch16-384をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.0937
正解率: 0.9654

新着 [07/30]: Stable Diffusionでの使用に特化したNSFW/SFW画像検出用の新しいViTモデルを作成しました（理由については下記の免責事項を参照）: AdamCodd/vit-nsfw-stable-diffusion。

免責事項: このモデルは生成画像を考慮して作成されていません！ここで使用されるデータセットには生成画像は含まれておらず、生成画像に対する性能は大幅に低下します。生成画像に特化した別のViTモデルが必要になります。以下は生成画像に対するモデルの実際のスコアです。

損失: 0.3682 (↑ 292.95%)
正解率: 0.8600 (↓ 10.91%)
F1: 0.8654
AUC: 0.9376 (↓ 5.75%)
適合率: 0.8350
再現率: 0.8980

✨ 主な機能

このモデルは、画像分類タスクに特化しており、主にSFW（セーフコンテンツ）とNSFW（不適切コンテンツ）の2クラス分類を行います。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

ローカル画像の使用

from transformers import pipeline
from PIL import Image

img = Image.open("<path_to_image_file>")
predict = pipeline("image-classification", model="AdamCodd/vit-base-nsfw-detector")
predict(img)

リモート画像の使用

from transformers import ViTImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
processor = ViTImageProcessor.from_pretrained('AdamCodd/vit-base-nsfw-detector')
model = AutoModelForImageClassification.from_pretrained('AdamCodd/vit-base-nsfw-detector')
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
# Predicted class: sfw

Transformers.js (Vanilla JS)の使用

/* 説明:
* - このスクリプトをHTMLファイル内で <script type="module"> タグを使って配置してください。
* - HTMLファイルがローカルまたはリモートサーバーを介して提供されていることを確認してください（例: Pythonのhttp.server、Node.jsサーバーなど）。
* - classifyImage関数呼び出し内の 'https://example.com/path/to/image.jpg' を分類したい画像のURLに置き換えてください。
*
* このスクリプトをHTMLに含める例:
* <script type="module" src="path/to/this_script.js"></script>
*
* この設定により、スクリプトはインポートを使用し、CORS問題なくネットワークリクエストを実行できます。
*/
import { pipeline, env } from 'https://cdn.jsdelivr.net/npm/@xenova/transformers@2.17.1';

// HuggingFace Hubからモデルをダウンロードするため、ローカルモデルのチェックをスキップできます
env.allowLocalModels = false;

// 画像分類モデルをロード
const classifier = await pipeline('image-classification', 'AdamCodd/vit-base-nsfw-detector');

// URLから画像を取得して分類する関数
async function classifyImage(url) {
  try {
    const response = await fetch(url);
    if (!response.ok) throw new Error('Failed to load image');

    const blob = await response.blob();
    const image = new Image();
    const imagePromise = new Promise((resolve, reject) => {
      image.onload = () => resolve(image);
      image.onerror = reject;
      image.src = URL.createObjectURL(blob);
    });

    const img = await imagePromise; // 画像がロードされるのを待つ
    const classificationResults = await classifier([img.src]); // 画像を分類
    console.log('Predicted class: ', classificationResults[0].label);
  } catch (error) {
    console.error('Error classifying image:', error);
  }
}

// 使用例
classifyImage('https://example.com/path/to/image.jpg');
// Predicted class: sfw

📚 ドキュメント

モデルの説明

Vision Transformer (ViT) は、大規模な画像コレクション（ImageNet-21k）を教師あり学習で事前学習したトランスフォーマーエンコーダモデル（BERTライク）です。画像解像度は224x224ピクセルです。その後、100万枚の画像と1,000クラスからなるImageNet（ILSVRC2012とも呼ばれる）データセットで、より高解像度の384x384でファインチューニングされました。