X

Xclip Base Patch32 16 Frames

microsoftによって開発
X-CLIPはCLIPの拡張版で、汎用的なビデオ言語理解のために設計されており、ビデオとテキストのペアで対照学習を行い、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。
ダウンロード数 901
リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル(ベースサイズ、32ピクセルパッチ解像度)はKinetics-400データセットで完全教師あり学習を行っており、ゼロショット、少数ショット、または完全教師ありのビデオ分類およびビデオ-テキスト検索タスクをサポートします。

モデル特徴

ビデオ言語理解
ビデオとテキストのペアで対照学習を行い、ビデオとテキストのマッチングと理解をサポートします。
高精度
Kinetics-400データセットで81.1%のトップ1精度と95.5%のトップ5精度を達成しました。
マルチタスクサポート
ゼロショット、少数ショット、または完全教師ありのビデオ分類およびビデオ-テキスト検索タスクに適用可能です。

モデル能力

ビデオ分類
ビデオ-テキスト検索
ゼロショット学習
少数ショット学習

使用事例

ビデオ分析
ビデオ分類
ビデオコンテンツを分類し、ビデオ内の動作やシーンを識別します。
Kinetics-400データセットで81.1%のトップ1精度を達成しました。
ビデオ-テキスト検索
テキスト記述に基づいて関連ビデオを検索したり、ビデオコンテンツに基づいてマッチするテキスト記述を生成したりします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase