Xclip Base Patch16 Hmdb 8 Shot

X

Xclip Base Patch16 Hmdb 8 Shot

microsoftによって開発

X-CLIPはCLIPの拡張版で、ビデオと言語の汎用的な理解のために、ビデオとテキストのペアで対照学習を行い、ビデオ分類やビデオ-テキスト検索タスクに適しています。

テキスト生成ビデオ

英語オープンソースライセンス:MIT #ビデオ-テキスト対照学習 #少数ショットビデオ分類 #アクション認識

ダウンロード数 17

リリース時間 : 9/7/2022

モデル概要

X-CLIP基本サイズモデルはHMDB-51データセットで少数ショット方式で訓練され、ビデオ分類とビデオ-テキスト検索タスクをサポートします。

モデル特徴

少数ショット学習

モデルはHMDB-51データセットで8ショット方式で訓練され、少数ショットシナリオに適しています。

ビデオ-言語理解

ビデオとテキストのペアで対照学習を行い、ビデオとテキストのマッチングタスクをサポートします。

高解像度処理

訓練時には各ビデオクリップに32フレーム、解像度224x224を使用し、高解像度ビデオ分析に適しています。

モデル能力

ビデオ分類

ビデオ-テキスト検索

少数ショット学習

使用事例

ビデオ分析

アクション認識

ビデオ中の特定のアクション（走る、跳ぶなど）を識別します。

HMDB-51データセットで62.8%のtop-1精度を達成。

ビデオ-テキストマッチング

ビデオ検索

テキスト記述に基づいて関連ビデオクリップを検索します。

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPは、HMDB - 51 データセットで少数ショット学習（K = 8）を用いて訓練されたモデル（ベースサイズ、パッチ解像度16）です。このモデルは、Niらによる論文 Expanding Language - Image Pretrained Models for General Video Recognition で紹介され、最初は [このリポジトリ](https://github.com/microsoft/VideoX/tree/master/X - CLIP) で公開されました。

このモデルは、各ビデオにつき32フレームを用い、解像度224x224で訓練されています。

免責事項：X - CLIPを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

X - CLIPは、一般的なビデオと言語の理解のために CLIP を最小限拡張したモデルです。このモデルは、（ビデオ、テキスト）のペアに対して対照的な方法で訓練されています。

X - CLIPアーキテクチャ

これにより、このモデルはゼロショット、少数ショット、または完全教師付きのビデオ分類やビデオ - テキスト検索などのタスクに使用できます。

🚀 クイックスタート

このモデルを使用することで、与えられたビデオとテキストの適合度を判断できます。関心のあるタスクについて微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

コード例については、ドキュメントを参照してください。

📦 インストール

原文書にインストール手順に関する内容がありませんでしたので、このセクションを省略します。

📚 ドキュメント

訓練データ

このモデルは HMDB - 51 データセットで訓練されています。

前処理

訓練時の前処理の詳細は [こちら](https://github.com/microsoft/VideoX/blob/40f6d177e0a057a50ac69ac1de6b5938fd268601/X - CLIP/datasets/build.py#L247) を参照してください。

検証時の前処理の詳細は [こちら](https://github.com/microsoft/VideoX/blob/40f6d177e0a057a50ac69ac1de6b5938fd268601/X - CLIP/datasets/build.py#L285) を参照してください。

検証時には、各フレームの短辺をリサイズした後、固定サイズの解像度（例：224x224）にセンタークロップを行います。次に、フレームをImageNetの平均と標準偏差を用いてRGBチャンネル全体で正規化します。

評価結果

このモデルは、トップ1精度62.8%を達成しています。

🔧 技術詳細

原文書に技術的な実装詳細に関する内容が十分にありませんでしたので、このセクションを省略します。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase