X-CLIPオープンソースモデル - 無料で汎用的なビデオ言語理解をサポートし、音声とテキストの効率的な分析を実現

ホーム

Xclip Base Patch16 Kinetics 600

microsoftによって開発

X-CLIPはCLIPの拡張版で、一般的なビデオ言語理解のために、（ビデオ、テキスト）ペアで対比学習によりトレーニングされています。

テキスト生成ビデオ

Transformers

英語オープンソースライセンス:MIT #ビデオテキスト対比学習 #ゼロショットビデオ分類 #高精度動作認識

ダウンロード数 294

リリース時間 : 9/8/2022

モデル概要

このモデルはベースサイズのX-CLIPモデルで、16x16のパッチ解像度を使用し、Kinetics-600データセットで完全教師ありトレーニングを行いました。ビデオ分類とビデオ-テキスト検索タスクに適しています。

モデル特徴

ビデオ言語理解

ビデオとテキストのペアで対比学習によりトレーニングされ、ビデオとテキストのマッチング判断をサポートします。

高精度

Kinetics 400データセットで85.3%のトップ1精度と97.1%のトップ5精度を達成しました。

ゼロショットおよび少数ショット学習

ゼロショット、少数ショット、または完全教師ありのビデオ分類タスクをサポートします。

モデル能力

ビデオ分類

ビデオ-テキスト検索

ゼロショット学習

少数ショット学習

使用事例

ビデオ分析

ビデオコンテンツ分類

ビデオコンテンツを分類し、ビデオ内の動作やシーンを識別します。

Kinetics 400データセットで優れたパフォーマンスを示しました。

ビデオ-テキストマッチング

与えられたテキストがビデオコンテンツと一致するかどうかを判断します。

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPは、Kinetics-600で完全教師付き学習されたモデル（ベースサイズ、パッチ解像度16）です。このモデルは、Niらによる論文Expanding Language-Image Pretrained Models for General Video Recognitionで紹介され、このリポジトリで最初に公開されました。

このモデルは、動画1つあたり8フレームを使用し、解像度224x224で学習されています。

免責事項：X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

X-CLIPは、一般的な動画と言語の理解のためにCLIPを最小限拡張したモデルです。このモデルは、（動画、テキスト）のペアで対照的に学習されています。

X-CLIPアーキテクチャ

これにより、このモデルはゼロショット、フューショット、または完全教師付きの動画分類や動画-テキスト検索などのタスクに使用できます。

📚 ドキュメント

想定される用途と制限

生のモデルを使用して、与えられた動画とテキストの適合度を判断することができます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

学習データ

このモデルは、Kinetics-600で学習されています。

前処理

学習時の前処理の詳細は、こちらで確認できます。検証時の前処理の詳細は、こちらで確認できます。検証時には、各フレームの短辺をリサイズした後、固定サイズの解像度（例：224x224）にセンタークロップを行います。次に、フレームをImageNetの平均と標準偏差でRGBチャンネル全体で正規化します。

評価結果

このモデルは、トップ1精度85.3％、トップ5精度97.1％を達成しています。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

モデル情報

属性	详情
モデルタイプ	X-CLIP（ベースサイズのモデル）
学習データ	Kinetics-600
タスク	動画分類
データセット	Kinetics 400
トップ1精度	85.3%
トップ5精度	97.1%