xclip-large-patch14-16-framesオープンソースビデオ - 言語モデル - 無料でビデオ分類とテキスト検索を実現

ホーム

Xclip Large Patch14 16 Frames

microsoftによって開発

X-CLIPはCLIPを拡張したもので、ビデオと言語の汎用的な理解のために、対照学習を通じてビデオ分類とビデオ-テキスト検索タスクを実現します。

テキスト生成ビデオ

Transformers

英語オープンソースライセンス:MIT #ビデオ-テキスト対照学習 #ゼロショットビデオ分類 #高精度動作認識

ダウンロード数 678

リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル（大型、14ピクセルパッチ解像度）はKinetics-400で全教師あり訓練を行い、ゼロショット、少数ショット、または全教師ありのビデオ分類およびビデオ-テキスト検索タスクをサポートします。

モデル特徴

ビデオ-言語対照学習

（ビデオ、テキスト）ペアの対照方式で訓練され、ビデオとテキストのマッチングタスクをサポートします。

高解像度処理

訓練時には各ビデオで16フレームを使用し、解像度は336x336で、細部の捕捉能力を確保します。

汎用ビデオ理解

分類や検索など、さまざまなビデオ理解タスクに適用可能です。

モデル能力

ビデオ分類

ビデオ-テキスト検索

ゼロショット学習

少数ショット学習

使用事例

ビデオコンテンツ分析

ビデオ分類

ビデオコンテンツを分類し、例えば動作やシーンなどを識別します。

Top-1精度87.7%、Top-5精度97.4%。

ビデオ-テキスト検索

テキスト記述に基づいて関連するビデオクリップを検索します。

🚀 X-CLIP (大型モデル)

X-CLIPは、Kinetics-400 データセットを用いて完全教師付き学習で訓練された大型モデル（パッチ解像度14）です。このモデルは、Niらによる論文 Expanding Language-Image Pretrained Models for General Video Recognition で紹介され、このリポジトリで最初に公開されました。

このモデルは、各ビデオにつき16フレームを用いて、解像度336x336で訓練されています。

免責事項：X-CLIPを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

X-CLIPは、一般的なビデオと言語の理解のために CLIP を最小限拡張したモデルです。このモデルは、（ビデオ、テキスト）のペアに対して対照的な方法で訓練されています。

X-CLIP architecture

これにより、このモデルはゼロショット、フューショット、または完全教師付きのビデオ分類やビデオ - テキスト検索などのタスクに使用できます。

想定される用途と制限

生のモデルを使用して、与えられたビデオとテキストの適合度を判断することができます。関心のあるタスクに関する微調整済みのバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

📦 インストール

原文書にインストール手順に関する内容がありません。

📚 ドキュメント

訓練データ

このモデルは Kinetics-400 データセットを用いて訓練されています。

前処理

訓練時の前処理の詳細はこちらで確認できます。検証時の前処理の詳細はこちらで確認できます。

検証時には、各フレームの短辺をリサイズした後、中央切り抜きを行って固定サイズの解像度（例：224x224）に変換します。次に、フレームをImageNetの平均と標準偏差を用いてRGBチャンネル全体で正規化します。

評価結果

このモデルは、トップ1精度87.7%、トップ5精度97.4%を達成しています。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

モデル情報

属性	详情
モデル名	nielsr/xclip-large-patch14-16-frames
タスクタイプ	ビデオ分類
データセット	Kinetics 400
トップ1精度	87.7%
トップ5精度	97.4%