视频动作识别

# 视频动作识别

Videomae Base Finetuned Kinetics 0409 Final 5sec Org Ab7 Val Inside Train

该模型是基于MCG-NJU/videomae-base-finetuned-kinetics微调的版本，主要用于视频理解任务，在评估集上取得了91.38%的准确率。

Videomae Base Finetuned Kinetics 0409 Final 5sec Org Ab7 Val As123 Retry

基于MCG-NJU/videomae-base-finetuned-kinetics微调的视频理解模型，在评估集上准确率达91.23%

Videomae Base Finetuned Ucf101 Subset

基于VideoMAE基础模型在UCF101子集上微调的视频分类模型

Videomae Base Finetuned Kinetics 0408 Final 5sec Org Ab7 Val As123

基于VideoMAE架构的视频动作识别模型，在Kinetics数据集上微调，准确率达92.25%

Videomae Base Finetuned Kinetics 0408 Final 45sec Org

基于MCG-NJU/videomae-base-finetuned-kinetics微调的视频理解模型，在评估集上准确率达90.97%

Videomae Base Finetuned Ucf101 Subset

基于 VideoMAE 基础模型在 UCF101 动作识别数据集子集上微调的视频理解模型

Timesformer Hr Finetuned K600

TimeSformer-HR 是一个基于视频的动作识别模型，专门针对高分辨率视频进行了优化，并在 Kinetics-600 数据集上进行了微调。

Timesformer Hr Finetuned K400

TimeSformer-HR 是一个基于视频的高分辨率时空Transformer模型，在Kinetics-400数据集上进行了微调，适用于视频动作识别任务。

Timesformer Base Finetuned Ssv2

TimeSformer是一种基于Transformer的视频理解模型，专门针对时序动作识别任务进行了优化。

Timesformer Base Finetuned K600

TimeSformer 是一个基于 Transformer 架构的视频理解模型，专门用于处理视频分类任务。

Timesformer Base Finetuned K400

TimeSformer 是一个基于 Transformer 的视频理解模型，专门针对 Kinetics-400 数据集进行了微调。

Athit Timesformer 32PS

TimeSformer是基于空间-时间注意力机制的视频理解模型，在Kinetics-400数据集上进行了微调，可用于视频分类任务。

Timesformer Base Finetuned K400 Finetuned Asl

该模型是基于facebook/timesformer-base-finetuned-k400微调的视频分类模型，在评估集上准确率达到96.25%。

Timesformer Base Finetuned K400 Continual Lora Ucf101 Continual Lora Ucf101

基于TimeSformer架构的视频动作识别模型，在Kinetics-400数据集上预训练并在UCF101数据集上微调

Timesformer Base Finetuned K400 Continual Lora Ucf101

基于TimeSformer架构的视频分类模型，在Kinetics-400数据集上预训练并在UCF101数据集上微调，采用LoRA技术进行持续学习。

Timesformer Base Finetuned K400 Finetuned Olimpics Sport Subset

基于TimeSformer架构的视频动作识别模型，在Kinetics-400数据集预训练后，针对奥运会运动子集进行了微调

Videomae Small Finetuned Ssv2

VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型，在Something-Something V2数据集上微调用于视频分类任务。

Videomae Base Finetuned Ucf101 Subset

基于VideoMAE基础模型在UCF101子集上微调的视频分类模型

Videomae Base Finetuned Ucf101 Subset

基于VideoMAE基础模型在UCF101子集上微调的视频理解模型，准确率达95.71%

Videomae Base Finetuned Ucf101 Subset

基于VideoMAE基础模型在UCF101子集上微调的视频分类模型，准确率达95.22%

Videomae Base Short Finetuned Ssv2 Finetuned Rwf2000 Epochs8 Batch8 Fp16

基于VideoMAE架构的视频动作识别模型，在SSv2数据集上预训练后，进一步在RWF-2000数据集上微调

Videomae Base Ssv2 Finetuned Rwf2000

基于VideoMAE架构的视频理解模型，在RWF-2000数据集上微调，用于暴力行为检测任务

Timesformer Large Finetuned K400

TimeSformer是一个基于空间-时间注意力机制的视频分类模型，专门用于视频理解任务。

Timesformer Base Finetuned K600

TimeSformer是基于空间-时间注意力机制的视频分类模型，在Kinetics-600数据集上进行了微调。

Timesformer Base Finetuned K400

TimeSformer是一个基于空间-时间注意力机制的视频分类模型，专门针对Kinetics-400数据集进行微调。

Timesformer Hr Finetuned K600

TimeSformer是一种基于时空注意力机制的视频理解模型，高分辨率变体专门针对Kinetics-600数据集进行了微调。

Videomae Base Finetuned Ucf101

基于VideoMAE Base模型在UCF101数据集上微调的视频动作识别模型

Transformers 英语

Videomae Base Finetuned Ucf101 Subset

基于VideoMAE架构的视频分类模型，在UCF101子集上微调，准确率达85.16%

Timesformer Hr Finetuned K600

TimeSformer是一种基于空间-时间注意力机制的视频分类模型，专门用于视频理解任务。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase