videomae-base-finetuned開源視頻理解模型 - 免費部署，評估集準確率達86.41%

首頁

Videomae Base Finetuned

由LouisDT開發

基於VideoMAE基礎模型在未知數據集上微調的視頻理解模型，在評估集上達到86.41%的準確率

視頻處理

Transformers

#視頻理解 #高準確率 #行為識別

下載量 15

發布時間 : 2/8/2023

模型概述

該模型是VideoMAE基礎架構的微調版本，主要用於視頻內容理解任務，具體應用場景需進一步補充

模型特點

高效視頻表示學習

採用掩碼自編碼器架構，能有效學習視頻的時空特徵表示

微調性能優異

在評估集上達到86.41%的準確率，表現良好

輕量級訓練

使用8的批次大小即可進行有效訓練

模型能力

視頻特徵提取

視頻內容分類

時空模式識別

使用案例

視頻內容分析

動作識別

識別視頻中的人類動作或行為

準確率86.41%（基於評估集）

場景分類

對視頻場景內容進行分類

訓練損失	輪數	步數	驗證損失	準確率
0.7163	0.21	28	0.6078	0.8098
0.7383	1.21	56	0.6975	0.4728
0.6853	2.21	84	0.6637	0.6957
0.7065	3.21	112	0.5590	0.8641
0.6673	4.17	135	0.5766	0.8587

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Videomae Base Finetuned

模型概述

模型特點

模型能力

使用案例

🚀 videomae-base-finetuned

🚀 快速開始

📚 詳細文檔

模型描述

預期用途與限制

訓練和評估數據

🔧 技術細節

訓練過程

訓練超參數

訓練結果

框架版本

📄 許可證