X-CLIPオープンソースビデオ - 言語理解モデル - 一般的なビデオコンテンツとテキストの相互理解を簡単に実現

ホーム

Xclip Base Patch16 Ucf 2 Shot

microsoftによって開発

X-CLIPはCLIPのミニマルな拡張で、汎用ビデオ-言語理解のために設計されています。モデルは対照学習により（ビデオ、テキスト）ペアでトレーニングされます。

テキスト生成ビデオ

Transformers

英語オープンソースライセンス:MIT #ビデオ-テキスト対照学習 #少数ショットビデオ分類 #汎用ビデオ認識

ダウンロード数 51

リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル（ベーシックサイズ、16x16のパッチ解像度）はUCF101データセットで少数ショット方式（K=2）でトレーニングされ、ビデオ分類およびビデオ-テキスト検索タスクに適しています。

モデル特徴

少数ショット学習能力

このモデルはUCF101データセットでわずか2つのサンプルを使用してトレーニングされ、強力な少数ショット学習能力を示しています。

ビデオ-言語理解

対照学習により（ビデオ、テキスト）ペアでトレーニングされ、ビデオとテキストの共同理解をサポートします。

汎用ビデオ認識

ゼロショット、少数ショット、完全教師ありのビデオ分類を含む、さまざまなビデオ認識タスクに適用可能です。

モデル能力

ビデオ分類

ビデオ-テキスト検索

少数ショット学習

使用事例

ビデオ分析

ビデオ分類

ビデオコンテンツを分類し、ビデオが属するカテゴリを識別します。

UCF101データセットで76.4%のtop-1精度を達成。

ビデオ-テキスト検索

テキスト記述に基づいて関連ビデオを検索する、またはビデオコンテンツに基づいて記述テキストを生成します。

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPは、UCF101データセットで少ショット学習（K = 2）を行ったモデル（ベースサイズ、パッチ解像度16）です。このモデルは、Niらによる論文Expanding Language-Image Pretrained Models for General Video Recognitionで紹介され、このリポジトリで最初に公開されました。

このモデルは、各ビデオにつき32フレームを使用し、解像度224x224で学習されています。

免責事項：X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

X-CLIPは、一般的なビデオ言語理解のためにCLIPを最小限拡張したモデルです。このモデルは、（ビデオ、テキスト）のペアに対して対照的な方法で学習されています。

X-CLIP architecture

これにより、このモデルはゼロショット、フューショット、または完全教師付きのビデオ分類やビデオテキスト検索などのタスクに使用できます。

🚀 クイックスタート

生のモデルを使用して、与えられたビデオとテキストの適合度を判断することができます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

💻 使用例

コード例については、ドキュメントを参照してください。

📦 インストール

READMEにインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

学習データ

このモデルは、UCF101データセットで学習されています。

前処理

学習時の前処理の正確な詳細は、ここで確認できます。検証時の前処理の正確な詳細は、ここで確認できます。検証時には、各フレームの短い方の辺をリサイズした後、固定サイズの解像度（例：224x224）に中央切り抜きを行います。次に、フレームはImageNetの平均と標準偏差を使用してRGBチャンネル全体で正規化されます。