X

Xclip Base Patch16 Ucf 2 Shot

microsoftによって開発
X-CLIPはCLIPのミニマルな拡張で、汎用ビデオ-言語理解のために設計されています。モデルは対照学習により(ビデオ、テキスト)ペアでトレーニングされます。
ダウンロード数 51
リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル(ベーシックサイズ、16x16のパッチ解像度)はUCF101データセットで少数ショット方式(K=2)でトレーニングされ、ビデオ分類およびビデオ-テキスト検索タスクに適しています。

モデル特徴

少数ショット学習能力
このモデルはUCF101データセットでわずか2つのサンプルを使用してトレーニングされ、強力な少数ショット学習能力を示しています。
ビデオ-言語理解
対照学習により(ビデオ、テキスト)ペアでトレーニングされ、ビデオとテキストの共同理解をサポートします。
汎用ビデオ認識
ゼロショット、少数ショット、完全教師ありのビデオ分類を含む、さまざまなビデオ認識タスクに適用可能です。

モデル能力

ビデオ分類
ビデオ-テキスト検索
少数ショット学習

使用事例

ビデオ分析
ビデオ分類
ビデオコンテンツを分類し、ビデオが属するカテゴリを識別します。
UCF101データセットで76.4%のtop-1精度を達成。
ビデオ-テキスト検索
テキスト記述に基づいて関連ビデオを検索する、またはビデオコンテンツに基づいて記述テキストを生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase