X

Xclip Base Patch16 Hmdb 16 Shot

microsoftによって開発
X-CLIPはCLIPの拡張バージョンで、汎用的なビデオと言語の理解に使用され、ビデオ分類とビデオ-テキスト検索タスクをサポートします。
ダウンロード数 49
リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル(ベースサイズ、16x16のパッチ解像度)はHMDB-51で少数ショット方式(K=16)でトレーニングされ、ビデオ分類タスクに適しています。

モデル特徴

少数ショット学習
モデルはHMDB-51データセットで少数ショット方式(K=16)でトレーニングされており、データが少ないシナリオに適しています。
ビデオ-テキストコントラスティブ学習
コントラスティブ学習方式でトレーニングされており、ビデオとテキストの関係を理解できます。
高解像度処理
トレーニング時には各ビデオクリップに32フレーム、解像度224x224を使用しており、高解像度ビデオ分析に適しています。

モデル能力

ビデオ分類
ビデオ-テキスト検索
少数ショット学習

使用事例

ビデオ理解
アクション認識
ビデオ中の人間の動作(走る、ジャンプなど)を認識します。
HMDB-51データセットで64.0%のトップ1精度を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase