Xclip Base Patch32

X

Xclip Base Patch32

microsoftによって開発

X-CLIPはCLIPの拡張版で、汎用ビデオ言語理解のために(ビデオ、テキスト)ペアで対照学習を行い、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。

テキスト生成ビデオ

英語オープンソースライセンス:MIT #ビデオテキスト対照学習 #ゼロショットビデオ分類 #マルチモーダルビデオ理解

ダウンロード数 309.80k

リリース時間 : 8/25/2022

モデル概要

X-CLIPモデル(基本サイズ、32x32のパッチ解像度)はKinetics-400データセットで全教師あり学習を行い、ゼロショット、少数ショット、または全教師ありのビデオ分類やビデオ-テキスト検索タスクに使用できます。

モデル特徴

ビデオ言語理解

CLIPモデルの能力を拡張し、ビデオとテキストの対照学習タスクを処理できるようにしました。

マルチタスクサポート

ゼロショット、少数ショット、または全教師ありのビデオ分類やビデオ-テキスト検索など、さまざまなタスクをサポートします。

効率的な学習

学習時には各ビデオ8フレーム、解像度224x224を使用し、学習効率を確保しました。

モデル能力

ビデオ分類

ビデオ-テキスト検索

ゼロショット学習

少数ショット学習

使用事例

ビデオ理解

ビデオ分類

ビデオ内容を分類し、ビデオ中の動作やシーンを識別します。

Kinetics-400データセットで80.4%のtop-1精度と95.0%のtop-5精度を達成しました。

ビデオ-テキスト検索

テキスト記述に基づいて関連ビデオを検索したり、ビデオ内容から記述テキストを生成したりします。

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPモデル（ベースサイズ、パッチ解像度32）は、Kinetics-400 で完全教師付き学習されました。このモデルは、Niらによる論文 Expanding Language-Image Pretrained Models for General Video Recognition で紹介され、最初はこのリポジトリで公開されました。

このモデルは、1動画あたり8フレームを使用し、解像度224x224で学習されています。

免責事項: X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

X-CLIPは、一般的なビデオ言語理解のために CLIP を最小限に拡張したモデルです。このモデルは、（ビデオ、テキスト）のペアで対照的に学習されています。

X-CLIPアーキテクチャ

これにより、このモデルはゼロショット、フューションショット、または完全教師付きのビデオ分類やビデオテキスト検索などのタスクに使用できます。

想定される用途と制限

生のモデルを使用して、与えられたビデオとテキストの適合度を判断することができます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

📦 インストール

本文書にインストール手順に関する具体的な内容が記載されていないため、このセクションを省略します。

📚 ドキュメント

学習データ

このモデルは Kinetics-400 で学習されています。

前処理

学習時の前処理の詳細はこちらを参照してください。検証時の前処理の詳細はこちらを参照してください。

検証時には、各フレームの短辺をリサイズした後、固定サイズの解像度（例：224x224）にセンタークロップを行います。次に、フレームをImageNetの平均と標準偏差でRGBチャンネル全体で正規化します。

評価結果

このモデルは、トップ1精度が80.4％、トップ5精度が95.0％を達成しています。

🔧 技術詳細

本文書に十分な技術的詳細が記載されていないため、このセクションを省略します。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

属性	详情
モデルタイプ	X-CLIP（ベースサイズのモデル）
学習データ	Kinetics-400

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase