Xclip Base Patch16 Ucf 4 Shot

X

Xclip Base Patch16 Ucf 4 Shot

microsoftによって開発

X-CLIPはCLIPの最小拡張で、汎用ビデオ言語理解のために（ビデオ、テキスト）ペアの対照方式でトレーニングされます。

英語オープンソースライセンス:MIT #ビデオ-テキスト対照学習 #少数ショットビデオ分類 #マルチモーダル理解

ダウンロード数 16

リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル（基本規模、16x16のパッチ解像度）は少数ショット方式（K=4）でUCF101上でトレーニングされ、ゼロショット、少数ショット、または完全教師ありのビデオ分類およびビデオ-テキスト検索タスクに使用できます。

モデル特徴

少数ショット学習

モデルはUCF101データセットで少数ショット方式（K=4）でトレーニングされ、データが不足しているシナリオに適しています。

ビデオ-テキスト対照学習

（ビデオ、テキスト）ペアの対照方式でトレーニングされ、ビデオとテキストのマッチングタスクをサポートします。

汎用ビデオ認識

モデルはゼロショット、少数ショット、または完全教師ありのビデオ分類およびビデオ-テキスト検索タスクに使用できます。

モデル能力

ビデオ分類

ビデオ-テキスト検索

ゼロショット学習

少数ショット学習

使用事例

ビデオ理解

ビデオ分類

ビデオ内容を分類し、UCF101データセットの101のアクションカテゴリに適用されます。

トップ1精度が83.4%に達します

ビデオ-テキスト検索

テキスト記述に基づいて関連ビデオを検索するか、ビデオ内容に基づいて一致するテキスト記述を生成します。

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPモデル（ベースサイズ、パッチ解像度16）は、UCF101 データセットで少数ショット学習（K = 4）を行って訓練されました。このモデルは、Niらによる論文 Expanding Language-Image Pretrained Models for General Video Recognition で紹介され、最初はこのリポジトリで公開されました。

このモデルは、各ビデオにつき32フレームを使用し、解像度224x224で訓練されています。

免責事項：X-CLIPを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

X-CLIPは、一般的なビデオと言語の理解のために CLIP を最小限に拡張したモデルです。このモデルは、（ビデオ、テキスト）のペアに対して対照的な方法で訓練されています。

X-CLIPアーキテクチャ

これにより、このモデルはゼロショット、フューショット、または完全教師付きのビデオ分類やビデオ - テキスト検索などのタスクに使用できます。

🚀 クイックスタート

この生のモデルを使用して、与えられたビデオとテキストの適合度を判断することができます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

📦 インストール

このREADMEにはインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

訓練データ

このモデルは UCF101 データセットで訓練されています。

前処理

訓練時の前処理の詳細はこちらで確認できます。検証時の前処理の詳細はこちらで確認できます。

検証時には、各フレームの短辺をリサイズした後、中央切り抜きを行って固定サイズの解像度（例：224x224）に調整します。次に、フレームをImageNetの平均と標準偏差を用いてRGBチャンネル全体で正規化します。

評価結果

このモデルは、トップ1精度83.4%を達成しています。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

Property	Details
Model Type	X-CLIP (base-sized model)
Training Data	UCF101

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase