Xclip Large Patch14 Kinetics 600

X

Xclip Large Patch14 Kinetics 600

microsoftによって開発

X-CLIPはCLIPの拡張版で、一般的なビデオと言語の理解のために、ビデオとテキストのペアで対照学習によって訓練されています。

テキスト生成ビデオ

英語オープンソースライセンス:MIT #ビデオテキスト対照学習 #ゼロショットビデオ分類 #高精度動作認識

ダウンロード数 124

リリース時間 : 9/8/2022

モデル概要

X-CLIPモデル（大型、14のパッチ解像度）はKinetics-600で完全教師あり訓練されており、ビデオ分類やビデオ-テキスト検索などのタスクに適しています。

モデル特徴

ビデオと言語の理解

ビデオとテキストのペアで対照学習によって訓練され、ビデオ分類やビデオ-テキスト検索をサポートします。

高精度

Kinetics-400データセットでは、トップ1精度が88.3%、トップ5精度が97.7%を達成しています。

マルチタスクサポート

ゼロショット、少数ショット、または完全教師ありのビデオ分類、およびビデオ-テキスト検索などのタスクに使用できます。

モデル能力

ビデオ分類

ビデオ-テキスト検索

ゼロショット学習

少数ショット学習

使用事例

ビデオ分析

ビデオ分類

ビデオの内容を分類し、ビデオ中の動作やシーンを識別します。

Kinetics-400データセットで88.3%のトップ1精度を達成しています。

ビデオ-テキスト検索

テキストの記述に基づいて関連するビデオを検索したり、ビデオの内容に基づいて記述テキストを生成したりします。

🚀 X-CLIP (大型モデル)

X-CLIPは、Kinetics-600で完全教師付き学習された大型モデル（パッチ解像度14）です。このモデルは、Niらによる論文Expanding Language-Image Pretrained Models for General Video Recognitionで紹介され、このリポジトリで最初に公開されました。

このモデルは、各ビデオにつき8フレームを使用し、解像度224x224で学習されています。

免責事項: X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

X-CLIPは、一般的なビデオ言語理解のためにCLIPを最小限拡張したモデルです。このモデルは、（ビデオ、テキスト）のペアに対して対照的な方法で学習されています。

X-CLIPアーキテクチャ

これにより、このモデルはゼロショット、フューショット、または完全教師付きのビデオ分類やビデオテキスト検索などのタスクに使用できます。

✨ 主な機能

ゼロショット、フューショット、完全教師付きのビデオ分類やビデオテキスト検索などのタスクに使用可能。
ビデオとテキストの関連性を評価できる。

📚 ドキュメント

想定される用途と制限

生のモデルを使用して、与えられたビデオとテキストの適合度を判断できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

学習データ

このモデルは、Kinetics-600で学習されています。

前処理

学習時の前処理の詳細はこちら、検証時の前処理の詳細はこちらで確認できます。

検証時には、各フレームの短辺をリサイズした後、固定サイズの解像度（例：224x224）に中央切り抜きを行います。次に、フレームはImageNetの平均と標準偏差を用いてRGBチャンネル全体で正規化されます。

評価結果

このモデルは、トップ1精度88.3%、トップ5精度97.7%を達成しています。

Property	Details
Model Type	X-CLIP (large-sized model)
Training Data	Kinetics-600

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase