X - CLIPオープンソースビデオ言語理解モデル - マルチモードビデオ分類タスクをサポートし、無料でデプロイ可能

ホーム

Xclip Base Patch16 Ucf 16 Shot

microsoftによって開発

X-CLIPはCLIPの拡張版で、汎用的な動画言語理解に使用され、ゼロショット、少数ショット、または完全教師ありの動画分類タスクをサポートします。

動画処理

Transformers

英語オープンソースライセンス:MIT #動画分類 #少数ショット学習 #高精度

ダウンロード数 92

リリース時間 : 9/7/2022

モデル概要

X-CLIPモデルはUCF101データセットで少数ショット方式（K=16）でトレーニングされ、主に動画分類と動画-テキスト検索タスクに使用されます。

モデル特徴

少数ショット学習

このモデルはわずか16個のサンプルを使用してトレーニングされ、強力な少数ショット学習能力を示しています。

動画-テキスト対比学習

（動画、テキスト）ペアで対比方式でトレーニングされ、動画とテキストのマッチングタスクをサポートします。

高精度

UCF101データセットで91.4%のtop-1精度を達成し、優れたパフォーマンスを示しています。

モデル能力

動画分類

動画-テキスト検索

少数ショット学習

使用事例

動画理解

動画分類

動画コンテンツを分類し、動画コンテンツ管理、推薦システムなどのシナリオに適用されます。

UCF101データセットで91.4%のtop-1精度を達成。

動画-テキスト検索

テキスト記述に基づいて関連動画を検索し、動画検索、コンテンツ審査などのシナリオに適用されます。

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPモデル（ベースサイズ、パッチ解像度16）は、UCF101 で少数ショット学習（K = 16）を行って訓練されました。このモデルは、Niらによる論文 Expanding Language-Image Pretrained Models for General Video Recognition で紹介され、最初はこのリポジトリで公開されました。

このモデルは、各ビデオにつき32フレームを使用し、解像度224x224で訓練されました。

免責事項: X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

X-CLIPは、一般的なビデオ言語理解のために CLIP を最小限に拡張したものです。このモデルは、（ビデオ、テキスト）のペアで対照的に訓練されています。

X-CLIPアーキテクチャ

これにより、このモデルはゼロショット、少数ショット、または完全教師付きのビデオ分類やビデオテキスト検索などのタスクに使用できます。

📚 ドキュメント

想定される用途と制限

生のモデルを使用して、与えられたビデオとテキストの適合度を判断することができます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

訓練データ

このモデルは UCF101 で訓練されました。

前処理

訓練時の前処理の正確な詳細はここで確認できます。検証時の前処理の正確な詳細はここで確認できます。検証時には、各フレームの短辺をリサイズした後、中央切り抜きを行って固定サイズの解像度（例えば224x224）にします。次に、フレームをImageNetの平均と標準偏差でRGBチャンネル全体で正規化します。