X

Xclip Base Patch16 Hmdb 2 Shot

microsoftによって開発
X-CLIPはCLIPの拡張バージョンで、汎用的なビデオと言語の理解のために設計されており、ビデオとテキストのペアでコントラスティブ学習により訓練され、ゼロショット、少数ショット、および完全教師ありのビデオ分類タスクをサポートします。
ダウンロード数 19
リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル(ベースサイズ、16x16のパッチ解像度)はHMDB-51で少数ショット方式(K=2)で訓練されており、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。

モデル特徴

少数ショット学習能力
このモデルはHMDB-51データセットでわずか2つのサンプルを使用して訓練され、強力な少数ショット学習能力を示しています。
ビデオ-テキストコントラスティブ学習
コントラスティブ学習方式で訓練されており、ビデオ内容とテキスト記述の関係を理解できます。
マルチタスクサポート
ゼロショット、少数ショット、完全教師ありのビデオ分類タスク、およびビデオ-テキスト検索などのアプリケーションをサポートします。

モデル能力

ビデオ分類
ビデオ-テキスト検索
少数ショット学習
ゼロショット推論

使用事例

ビデオ理解
アクション認識
ビデオ中の人間の動作を識別
HMDB-51データセットで53.0%のtop-1精度を達成
ビデオコンテンツ検索
テキスト記述に基づいて関連するビデオクリップを検索
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase