Xclip Base Patch16 Hmdb 2 Shot

X

Xclip Base Patch16 Hmdb 2 Shot

microsoftによって開発

X-CLIPはCLIPの拡張バージョンで、汎用的なビデオと言語の理解のために設計されており、ビデオとテキストのペアでコントラスティブ学習により訓練され、ゼロショット、少数ショット、および完全教師ありのビデオ分類タスクをサポートします。

テキスト生成ビデオ

英語オープンソースライセンス:MIT #ビデオ分類 #少数ショット学習 #コントラスティブ学習

ダウンロード数 19

リリース時間 : 9/7/2022

モデル概要

X-CLIPモデル（ベースサイズ、16x16のパッチ解像度）はHMDB-51で少数ショット方式（K=2）で訓練されており、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。

モデル特徴

少数ショット学習能力

このモデルはHMDB-51データセットでわずか2つのサンプルを使用して訓練され、強力な少数ショット学習能力を示しています。

ビデオ-テキストコントラスティブ学習

コントラスティブ学習方式で訓練されており、ビデオ内容とテキスト記述の関係を理解できます。

マルチタスクサポート

ゼロショット、少数ショット、完全教師ありのビデオ分類タスク、およびビデオ-テキスト検索などのアプリケーションをサポートします。

モデル能力

ビデオ分類

ビデオ-テキスト検索

少数ショット学習

ゼロショット推論

使用事例

ビデオ理解

アクション認識

ビデオ中の人間の動作を識別

HMDB-51データセットで53.0%のtop-1精度を達成

ビデオコンテンツ検索

テキスト記述に基づいて関連するビデオクリップを検索

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPは、HMDB-51 データセットで少ないサンプル数（K = 2）で学習されたモデル（ベースサイズ、パッチ解像度16）です。このモデルは、Niらによる論文 Expanding Language-Image Pretrained Models for General Video Recognition で紹介され、最初はこのリポジトリで公開されました。

このモデルは、各ビデオにつき32フレームを使用し、解像度224x224で学習されています。

免責事項: X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

X-CLIPは、一般的なビデオと言語の理解のために CLIP を最小限に拡張したモデルです。このモデルは、（ビデオ、テキスト）のペアで対照的に学習されています。

X-CLIPアーキテクチャ

これにより、このモデルはゼロショット、フューショット、または完全教師付きのビデオ分類やビデオ - テキスト検索などのタスクに使用できます。

🚀 クイックスタート

このモデルは、与えられたビデオとテキストの適合度を判断するために使用できます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

コード例については、ドキュメントを参照してください。

📦 インストール

READMEに具体的なインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

学習データ

このモデルは HMDB-51 データセットで学習されています。

前処理

学習時の前処理の詳細はこちらで確認できます。

検証時の前処理の詳細はこちらで確認できます。

検証時には、各フレームの短い辺をリサイズした後、固定サイズの解像度（例：224x224）に中央切り抜きを行います。次に、フレームはImageNetの平均と標準偏差を使用してRGBチャンネル全体で正規化されます。

評価結果

このモデルは、トップ1精度53.0%を達成しています。

🔧 技術詳細

このモデルは、X-CLIPのベースサイズバージョンで、パッチ解像度が16です。CLIPを拡張してビデオと言語の理解を強化しています。学習には32フレームのビデオを使用し、解像度は224x224です。対照学習により、ビデオとテキストの関係を学習しています。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

属性	詳情
モデルタイプ	X-CLIP (ベースサイズ、パッチ解像度16)
学習データ	HMDB-51

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase