videomae-baseオープンソース動画分類モデル - 無料でデプロイ可能、暴力と非暴力シーンを高精度で識別

ホーム

Videomae Base Finetuned Kinetics Violence Nonviolence Tuned

cliffer1によって開発

VideoMAEアーキテクチャに基づく動画分類モデルで、暴力と非暴力シーンの分類タスクに特化して微調整されています

動画処理

Transformers

#動画暴力検出 #高精度動作認識 #事前学習モデルの微調整

ダウンロード数 56

リリース時間 : 3/10/2025

モデル概要

このモデルはMCG-NJU/videomae-base-finetuned-kineticsを微調整したバージョンで、動画コンテンツ内の暴力シーンと非暴力シーンの分類に焦点を当てており、評価データセットで98.05%の精度を達成しています

モデル特徴

高精度

暴力/非暴力分類タスクで98.05%の精度を達成

VideoMAEアーキテクチャ採用

効率的な動画マスク自己符号化器の事前学習アーキテクチャを採用

微調整最適化

kineticsデータセットの事前学習に基づいて特定の微調整を実施

モデル能力

動画コンテンツ分析

暴力シーン検出

動画分類

使用事例

コンテンツ審査

動画プラットフォームのコンテンツフィルタリング

暴力コンテンツを含む可能性のある動画を自動識別してタグ付け

精度98.05%

セキュリティ監視

監視カメラ映像分析

監視映像内の暴力行為をリアルタイム検出

学習損失	エポック	ステップ	検証損失	正解率
0.074	0.2529	88	0.1186	0.9556
0.0192	1.2529	176	0.0703	0.9787
0.0449	2.2529	264	0.0741	0.9787
0.0061	3.2414	348	0.0753	0.9805

属性	詳情
モデルタイプ	videomae-base-finetuned-kinetics-violence-nonviolence-tuned
学習データ	不明
評価指標	損失: 0.0753、正解率: 0.9805

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Videomae Base Finetuned Kinetics Violence Nonviolence Tuned

モデル概要

モデル特徴

モデル能力

使用事例

🚀 videomae-base-finetuned-kinetics-violence-nonviolence-tuned

🚀 クイックスタート

📚 ドキュメント

モデルの説明

想定される用途と制限

学習と評価データ

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス

📋 情報テーブル