vit-base-violence-detection開源模型 - 免費快速識別圖像暴力與非暴力場景

首頁

Vit Base Violence Detection

由jaranohaal開發

基於Vision Transformer(ViT)架構優化的暴力行為檢測模型，能夠將圖像分類為暴力或非暴力場景。

圖像分類

Transformers

英語開源協議:Apache-2.0 #暴力場景識別 #高精度檢測 #視頻監控

下載量 2,140

發布時間 : 6/19/2024

模型概述

該模型以google/vit-base-patch16-224-in21k為基礎，使用現實生活暴力場景數據集進行訓練，適用於內容審核、視頻監控等場景。

模型特點

高準確率

測試準確率達到98.80%，能夠有效識別暴力場景。

基於ViT架構

採用Vision Transformer架構，具有優秀的圖像處理能力。

專業數據集訓練

使用現實生活暴力場景數據集進行訓練，識別效果更貼近實際應用。

模型能力

圖像分類

暴力場景識別

內容審核

使用案例

安全監控

視頻監控系統

即時監控視頻流，自動識別暴力行為並報警。

提高監控效率，減少人工審核成本。

內容管理

社交媒體內容審核

自動檢測用戶上傳的圖片或視頻中是否包含暴力內容。

幫助平臺快速識別並處理違規內容。

家長控制

兒童保護軟件

過濾含有暴力內容的圖像和視頻。

保護兒童免受不良內容影響。

🚀 ViT Base暴力檢測

本模型是一個經過微調的視覺變換器（ViT）模型，用於暴力檢測。它能有效識別圖像中的暴力內容，為相關應用提供可靠的分類依據。

🚀 快速開始

該模型可用於需要檢測圖像中暴力內容的應用場景，包括但不限於內容審核、監控和家長控制軟件。

✨ 主要特性

高精度識別：在測試中，Vit Base的準確率達到了98.80%，損失率僅為0.20038144290447235，能夠準確區分暴力和非暴力圖像。
基於優質預訓練模型：此模型基於google/vit-base-patch16-224-in21k構建，並在Kaggle的Real Life Violence Situations數據集上進行了訓練，具有良好的泛化能力。

📦 安裝指南

文檔未提及安裝步驟，跳過該章節。

💻 使用示例

基礎用法

import torch
from transformers import ViTForImageClassification, ViTFeatureExtractor
from PIL import Image

# Load the model and feature extractor
model = ViTForImageClassification.from_pretrained('jaranohaal/vit-base-violence-detection')
feature_extractor = ViTFeatureExtractor.from_pretrained('jaranohaal/vit-base-violence-detection')

# Load an image
image = Image.open('image.jpg')

# Preprocess the image
inputs = feature_extractor(images=image, return_tensors="pt")

# Perform inference
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits
    predicted_class_idx = logits.argmax(-1).item()

# Print the predicted class
print("Predicted class:", model.config.id2label[predicted_class_idx])