オープンソースViViT-B-16x2モデル - 無料でデプロイし、高効率でビデオ分類タスクを処理する

ホーム

Vivit B 16x2

googleによって開発

ViViTはビジョントランスフォーマー(ViT)をビデオ処理向けに拡張したもので、主にビデオ分類などの下流タスクに使用されます。

動画処理

Transformers

オープンソースライセンス:MIT #ビデオ分類 #ビジョントランスフォーマー #時空間モデリング

ダウンロード数 989

リリース時間 : 11/23/2022

モデル概要

ViViTモデルはビジョントランスフォーマー(ViT)アーキテクチャを拡張し、ビデオデータを処理できるようにしました。このモデルは時空間アテンションメカニズムによりビデオ中の時空間特徴を捉え、ビデオ分類などのタスクに適しています。

モデル特徴

時空間アテンションメカニズム

ViTアーキテクチャを拡張し、ビデオ中の空間次元と時間次元の特徴を同時に捉える

ビデオ処理能力

静止画像ではなく、ビデオシーケンスデータを処理するために特別に設計されている

拡張性

Transformerアーキテクチャに基づいており、モデルの規模と複雑さを柔軟に調整できる

モデル能力

ビデオ特徴抽出

ビデオ分類

時空間パターン認識

使用事例

ビデオ分析

ビデオコンテンツ分類

アクション認識、シーン認識など、ビデオコンテンツを分類する

行動認識

ビデオ中の人間の行動や活動を認識する

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Vivit B 16x2

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ViViT (Video Vision Transformer)

🚀 クイックスタート

✨ 主な機能

💻 使用例

📚 ドキュメント

BibTeXエントリと引用情報

📄 ライセンス