オープンソースViViT-b-16x2-kinetics400モデル - 動画処理に適し、動画分類タスクを効率的に完了

ホーム

Vivit B 16x2 Kinetics400

googleによって開発

ViViTはビジョントランスフォーマー(ViT)をビデオ処理向けに拡張したもので、特にビデオ分類タスクに適しています。

動画処理

Transformers

オープンソースライセンス:MIT #ビデオ分類 #ビジョントランスフォーマー #時空間モデリング

ダウンロード数 56.94k

リリース時間 : 11/23/2022

モデル概要

ViViTモデルはビジョントランスフォーマー(ViT)アーキテクチャを拡張し、ビデオデータを処理できるようにしました。このモデルは主にビデオ分類タスクに使用され、ビデオ内の時空間的特徴を捉えることができます。

モデル特徴

ビデオ処理能力

ビジョントランスフォーマーアーキテクチャを拡張し、ビデオデータを効果的に処理できるようにしました

時空間特徴の捕捉

ビデオ内の空間次元と時間次元の特徴を同時に捉えることができます

Transformerアーキテクチャベース

Transformerの自己注意メカニズムを利用して視覚データを処理します

モデル能力

ビデオ分類

時空間特徴抽出

ビデオコンテンツ理解

使用事例

ビデオ分析

ビデオコンテンツ分類

ビデオコンテンツを分類し、スポーツの種類やシーンカテゴリなどを識別します

動作認識

ビデオ内の人間の動作や行動を識別します

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Vivit B 16x2 Kinetics400

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ViViT (Video Vision Transformer)

🚀 クイックスタート

✨ 主な機能

💻 使用例

基本的な使用法

📚 ドキュメント

BibTeXエントリと引用情報

📄 ライセンス