Xclip Base Patch16 Zero Shot

X

Xclip Base Patch16 Zero Shot

microsoftによって開発

X-CLIPはCLIPのミニマルな拡張で、汎用的な動画と言語の理解のために設計されており、(動画、テキスト)ペアで対照的に訓練され、ゼロショット、少数ショット、または完全教師ありの動画分類や動画-テキスト検索などのタスクに適しています。

テキスト生成ビデオ

英語オープンソースライセンス:MIT #ゼロショット動画分類 #マルチモーダル対照学習 #動画-テキストマッチング

ダウンロード数 5,045

リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル(ベースサイズ、16x16のパッチ解像度)はKinetics-400で訓練され、動画分類や動画-テキスト検索タスクに適しています。

モデル特徴

ゼロショット動画分類

微調整なしで動画分類タスクを実行できます。

動画-テキスト対照学習

対照的に訓練されることで、動画とテキストの関係を理解できます。

複数データセットへの適用性

HMDB-51、UCF101、Kinetics-600などの複数のデータセットで良好なパフォーマンスを示します。

モデル能力

動画分類

動画-テキスト検索

ゼロショット学習

使用事例

動画理解

アクション認識

動画中のアクションカテゴリを識別します。

UCF101で72.0%のtop-1精度を達成。

動画コンテンツ検索

テキスト記述に基づいて関連する動画コンテンツを検索します。

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPは、Kinetics-400で学習されたモデル（ベースサイズ、パッチ解像度16）です。このモデルは、Niらによる論文Expanding Language-Image Pretrained Models for General Video Recognitionで紹介され、最初はthis repositoryで公開されました。

このモデルは、1つのビデオにつき32フレームを使用し、解像度224x224で学習されています。

免責事項: X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

モデルの説明

X-CLIPは、一般的なビデオと言語の理解のために、CLIPを最小限拡張したモデルです。このモデルは、(ビデオ、テキスト)のペアに対して対照的な方法で学習されています。

X-CLIP architecture

これにより、このモデルはゼロショット、フューショット、または完全教師付きのビデオ分類やビデオ - テキスト検索などのタスクに使用できます。

想定される用途と制限

生のモデルを使用して、与えられたビデオとテキストの適合度を判断することができます。関心のあるタスクに関する微調整済みのバージョンを探すには、モデルハブを参照してください。

使用方法

コード例については、ドキュメントを参照してください。

📦 インストール

READMEに具体的なインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

学習データ

このモデルは、Kinetics 400で学習されています。

前処理

学習時の前処理の詳細は、こちらに記載されています。検証時の前処理の詳細は、こちらに記載されています。

検証時には、各フレームの短い方の辺をリサイズした後、固定サイズの解像度（例えば224x224）に中央切り抜きを行います。次に、フレームはImageNetの平均と標準偏差を使用してRGBチャンネル全体で正規化されます。

評価結果

このモデルは、HMDB - 51でゼロショットのトップ1精度が44.6%、UCF - 101で72.0%、Kinetics - 600で65.2%を達成しています。

モデル情報

属性	详情
モデルタイプ	X-CLIP (ベースサイズのモデル)
学習データ	Kinetics 400

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase