xclip-base-patch16-ucf-8-shotオープンソースモデル - 汎用ビデオ言語理解、さまざまなビデオタスクに適用可能

Xclip Base Patch16 Ucf 8 Shot

microsoftによって開発

X-CLIPはCLIPのミニマルな拡張で、一般的なビデオ言語理解のために設計されており、（ビデオ、テキスト）ペアでコントラスティブに訓練され、ゼロショット、少数ショット、または完全教師ありのビデオ分類やビデオ-テキスト検索などのタスクに適しています。

ダウンロード数 16

リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル（基本サイズ、16x16のパッチ解像度）は、少数ショット方式（K=8）でUCF101で訓練され、ビデオ分類タスクに適しています。

少数ショット学習

このモデルはUCF101データセットで少数ショット方式（K=8）で訓練されており、データ量が限られたアプリケーションシナリオに適しています。

ビデオ-テキストコントラスティブ学習

モデルは（ビデオ、テキスト）ペアでコントラスティブに訓練され、ビデオ-テキスト検索タスクをサポートします。

高精度

UCF101データセットにおいて、モデルのトップ1精度は88.3%に達します。

ビデオ分類

ビデオ-テキスト検索

少数ショット学習

ビデオ理解

ビデオ分類

ビデオコンテンツを分類し、ビデオコンテンツの分析と管理に適しています。

UCF101データセットで88.3%のトップ1精度を達成。

ビデオ-テキスト検索

テキスト記述に基づいて関連するビデオコンテンツを検索し、ビデオ検索や推薦システムに適しています。

X-CLIPモデル（ベースサイズ、パッチ解像度16）は、UCF101 データセットで少数ショット学習（K = 8）を行って訓練されました。このモデルは、Niらによる論文 Expanding Language-Image Pretrained Models for General Video Recognition で紹介され、最初はこのリポジトリで公開されました。

このモデルは、各ビデオにつき32フレームを使用し、解像度224x224で訓練されています。

免責事項：X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。