X-CLIPオープンソースモデル - ビデオ分類とテキスト検索をサポートする汎用ビデオ言語理解ツール

ホーム

Xclip Base Patch16 Hmdb 16 Shot

microsoftによって開発

X-CLIPはCLIPの拡張バージョンで、汎用的なビデオと言語の理解に使用され、ビデオ分類とビデオ-テキスト検索タスクをサポートします。

動画処理

Transformers

英語オープンソースライセンス:MIT #ビデオ分類 #少数ショット学習 #コントラスティブ学習

ダウンロード数 49

リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル（ベースサイズ、16x16のパッチ解像度）はHMDB-51で少数ショット方式（K=16）でトレーニングされ、ビデオ分類タスクに適しています。

モデル特徴

少数ショット学習

モデルはHMDB-51データセットで少数ショット方式（K=16）でトレーニングされており、データが少ないシナリオに適しています。

ビデオ-テキストコントラスティブ学習

コントラスティブ学習方式でトレーニングされており、ビデオとテキストの関係を理解できます。

高解像度処理

トレーニング時には各ビデオクリップに32フレーム、解像度224x224を使用しており、高解像度ビデオ分析に適しています。

モデル能力

ビデオ分類

ビデオ-テキスト検索

少数ショット学習

使用事例

ビデオ理解

アクション認識

ビデオ中の人間の動作（走る、ジャンプなど）を認識します。

HMDB-51データセットで64.0%のトップ1精度を達成。

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPモデル（ベースサイズ、パッチ解像度16）は、HMDB - 51 データセットで少サンプル学習（K = 16）を行って訓練されました。このモデルは、Niらによる論文 Expanding Language - Image Pretrained Models for General Video Recognition で紹介され、最初は [このリポジトリ](https://github.com/microsoft/VideoX/tree/master/X - CLIP) で公開されました。

このモデルは、1動画あたり32フレームを使用し、解像度224x224で訓練されています。

免責事項：X - CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

X - CLIPは、一般的なビデオ言語理解のために CLIP を最小限拡張したモデルです。このモデルは、（ビデオ、テキスト）ペアに対して対照的な方法で訓練されています。

X - CLIPアーキテクチャ

これにより、このモデルはゼロショット、フューショット、または完全教師ありのビデオ分類やビデオテキスト検索などのタスクに使用できます。

🚀 クイックスタート

生のモデルを使用して、与えられたビデオとテキストの適合度を判断することができます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

コード例については、ドキュメントを参照してください。

📚 ドキュメント

訓練データ

このモデルは HMDB - 51 データセットで訓練されています。

前処理

訓練時の前処理の詳細は [ここ](https://github.com/microsoft/VideoX/blob/40f6d177e0a057a50ac69ac1de6b5938fd268601/X - CLIP/datasets/build.py#L247) で確認できます。検証時の前処理の詳細は [ここ](https://github.com/microsoft/VideoX/blob/40f6d177e0a057a50ac69ac1de6b5938fd268601/X - CLIP/datasets/build.py#L285) で確認できます。検証時には、各フレームの短辺をリサイズした後、中央切り抜きを行って固定サイズの解像度（例：224x224）にします。次に、フレームをImageNetの平均と標準偏差でRGBチャンネル全体に正規化します。