Vivit B 16x2 Kinetics400 UCF Crime

V

Vivit B 16x2 Kinetics400 UCF Crime

prathameshdalalによって開発

このモデルはgoogle/vivit-b-16x2-kinetics400をUCF-Crimeデータセットでファインチューニングしたバージョンで、動画異常検出タスクに使用されます。

オープンソースライセンス:MIT #動画異常検出 #暴力行為認識 #時空間特徴抽出

ダウンロード数 506

リリース時間 : 9/22/2023

モデル概要

ViViTアーキテクチャに基づく動画分類モデルで、UCF-Crimeデータセットの異常行動検出に特化してファインチューニングされています。

モデル特徴

動画異常検出

監視カメラ映像中の異常行動を検出するために特別に設計されています

Transformerアーキテクチャベース

ViViTアーキテクチャを採用し、動画理解におけるTransformerの利点を組み合わせています

事前学習とファインチューニング

Kinetics-400事前学習モデルを基に、UCF-Crimeデータセットでファインチューニングされています

モデル能力

動画分類

異常行動検出

監視カメラ映像分析

使用事例

公共安全

監視カメラ映像の異常検出

監視カメラ映像中の暴力事件、窃盗などの異常行動を自動検出

UCF-Crime評価セットで61.49%の精度を達成

🚀 vivit-b-16x2-kinetics400-UCF-Crime

このモデルは、UCF-Crimeデータセットでgoogle/vivit-b-16x2-kinetics400をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 1.9757
正解率: 0.6149

🚀 クイックスタート

このモデルは、UCF-Crimeデータセットに対してgoogle/vivit-b-16x2-kinetics400をファインチューニングしたものです。評価セットでの結果は以下の通りです。

📚 ドキュメント

モデルの説明

詳細情報は追って提供される予定です。

想定される用途と制限事項

詳細情報は追って提供される予定です。

学習と評価データ

詳細情報は追って提供される予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 5e-05
学習バッチサイズ: 8
評価バッチサイズ: 8
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: linear
学習率スケジューラのウォームアップ比率: 0.1
学習ステップ数: 3132

学習結果

学習損失	エポック	ステップ	検証損失	正解率
1.2072	0.06	196	1.6400	0.5518
1.5513	1.06	392	1.4988	0.5634
1.1038	2.06	588	1.5328	0.5861
0.9462	3.06	784	1.3932	0.6178
0.7387	4.06	980	1.5449	0.6060
0.5085	5.06	1176	1.3075	0.6287
0.4443	6.06	1372	1.6743	0.6001
0.4695	7.06	1568	1.5287	0.6172
0.4409	8.06	1764	1.7749	0.6089
0.1158	9.06	1960	1.9027	0.6076
0.1183	10.06	2156	1.9622	0.6085
0.1322	11.06	2352	2.0872	0.6152
0.1881	12.06	2548	2.0095	0.6094
0.0932	13.06	2744	1.9398	0.6232
0.0303	14.06	2940	1.9994	0.6134
0.0513	15.06	3132	1.9757	0.6149

フレームワークのバージョン

Transformers 4.33.2
Pytorch 1.10.0+cu113
Datasets 2.14.5
Tokenizers 0.13.3

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase