Xclip Base Patch16 Hmdb 4 Shot

X

Xclip Base Patch16 Hmdb 4 Shot

microsoftによって開発

X-CLIPはCLIPのミニマルな拡張で、汎用的なビデオ言語理解のために、(ビデオ、テキスト)ペアの対照学習方式でトレーニングされています。

ビデオ生成テキスト

英語オープンソースライセンス:MIT #ビデオテキスト対照学習 #少数ショットビデオ分類 #行動認識

ダウンロード数 22

リリース時間 : 9/7/2022

モデル概要

このモデルは基本サイズのX-CLIPモデルで、16ピクセルパッチ解像度を採用し、HMDB-51データセットで少数ショット方式(K=4)でトレーニングされ、ビデオ分類タスクに適しています。

モデル特徴

少数ショット学習能力

このモデルはHMDB-51データセットでわずか4つのサンプルを使用してトレーニングされ、優れた少数ショット学習能力を示しています。

ビデオ-テキスト対照学習

(ビデオ、テキスト)ペアの対照学習方式を採用し、モデルのビデオ内容理解能力を強化しています。

効率的なビデオ処理

ビデオごとに32フレーム、解像度224x224で処理し、計算効率とモデル性能のバランスを取っています。

モデル能力

ビデオ分類

ビデオ-テキストマッチング

少数ショット学習

使用事例

ビデオ理解

人間の行動認識

ビデオ中の人間の行動カテゴリを識別

HMDB-51データセットで57.3%のトップ1精度を達成

ビデオ検索

テキストベースのビデオ検索

テキスト記述に基づいて関連ビデオクリップを検索

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPモデル（ベースサイズ、パッチ解像度16）は、HMDB-51 データセットでfew-shot学習（K=4）を行って訓練されました。このモデルは、Niらによる論文 Expanding Language-Image Pretrained Models for General Video Recognition で紹介され、このリポジトリで最初に公開されました。

このモデルは、1つのビデオにつき32フレームを使用し、解像度224x224で訓練されています。

免責事項：X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このモデルは、与えられたビデオとテキストの適合度を判断するために使用できます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

✨ 主な機能

X-CLIPは、一般的なビデオと言語の理解のために CLIP を最小限に拡張したモデルです。このモデルは、（ビデオ、テキスト）のペアで対照的に訓練されています。

X-CLIPアーキテクチャ

これにより、このモデルはゼロショット、フューショット、または完全教師ありのビデオ分類やビデオテキスト検索などのタスクに使用できます。

📚 ドキュメント

使用方法

コード例については、ドキュメントを参照してください。

訓練データ

このモデルは、HMDB-51 データセットで訓練されています。

前処理

訓練時の前処理の詳細は、ここで確認できます。検証時の前処理の詳細は、ここで確認できます。

検証時には、各フレームの短い辺をリサイズした後、固定サイズの解像度（例：224x224）にセンタークロップを行います。次に、フレームはImageNetの平均と標準偏差を使用してRGBチャネル全体で正規化されます。

評価結果

このモデルは、トップ1精度57.3%を達成しています。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase