Xclip Base Patch16 16 Frames

X

Xclip Base Patch16 16 Frames

microsoftによって開発

X-CLIPは、一般的なビデオと言語の理解のためにCLIPを極めてシンプルに拡張したもので、（ビデオ、テキスト）ペアで対照学習によってトレーニングされます。

テキスト生成ビデオ

英語オープンソースライセンス:MIT #ビデオテキスト対照学習 #ゼロショットビデオ分類 #マルチモーダルビデオ理解

ダウンロード数 1,034

リリース時間 : 9/7/2022

モデル概要

このモデルは、ゼロショット、少数ショット、または完全教師ありのビデオ分類、およびビデオ-テキスト検索タスクに使用できます。

モデル特徴

ビデオ-言語理解

（ビデオ、テキスト）ペアで対照学習によってトレーニングされ、ビデオとテキストのマッチングをサポートします。

マルチタスクサポート

ゼロショット、少数ショット、または完全教師ありのビデオ分類、およびビデオ-テキスト検索タスクに使用できます。

効率的なトレーニング

トレーニング時には各ビデオに16フレームを使用し、解像度は224x224で、計算効率を最適化しています。

モデル能力

ビデオ分類

ビデオ-テキスト検索

ゼロショット学習

少数ショット学習

使用事例

ビデオ分析

ビデオ分類

ビデオコンテンツを分類します。例えば、動作認識、シーン認識など。

Kinetics-400データセットで84.7%のトップ1精度と96.8%のトップ5精度を達成しました。

ビデオ-テキスト検索

テキスト記述に基づいて関連ビデオを検索する、またはビデオコンテンツに基づいてマッチするテキスト記述を生成します。

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPモデル（ベースサイズ、パッチ解像度16）は、Kinetics-400 で完全教師付き学習されました。このモデルは、Niらによる論文 Expanding Language-Image Pretrained Models for General Video Recognition で紹介され、最初はこのリポジトリで公開されました。

このモデルは、各ビデオにつき16フレームを使用し、解像度224x224で学習されています。

免責事項: X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

X-CLIPモデルは、ビデオとテキストの関連性を学習することで、ビデオ分類やビデオテキスト検索などのタスクに利用できます。

✨ 主な機能

一般的なビデオ言語理解のためのCLIPの拡張モデルです。
ゼロショット、フューショット、または完全教師付きのビデオ分類やビデオテキスト検索に使用できます。

📚 ドキュメント

モデルの説明

X-CLIPは、一般的なビデオ言語理解のための CLIP の最小限の拡張です。このモデルは、（ビデオ、テキスト）のペアに対して対照的に学習されます。

X-CLIPアーキテクチャ

これにより、このモデルはゼロショット、フューショット、または完全教師付きのビデオ分類やビデオテキスト検索などのタスクに使用できます。

想定される用途と制限

与えられたビデオとテキストの適合度を判断するために、生のモデルを使用することができます。関心のあるタスクに関する微調整済みバージョンを探すには、モデルハブを参照してください。

使用方法

コード例については、ドキュメントを参照してください。

学習データ

このモデルは Kinetics-400 で学習されています。

前処理

学習時の前処理の正確な詳細はここで確認できます。検証時の前処理の正確な詳細はここで確認できます。

検証時には、各フレームの短い辺をリサイズした後、固定サイズの解像度（例：224x224）に中央クロッピングを行います。次に、フレームはImageNetの平均と標準偏差を用いてRGBチャネル全体で正規化されます。

評価結果

このモデルは、トップ1精度84.7％、トップ5精度96.8％を達成しています。

モデルの指標

プロパティ	詳細
モデルタイプ	X-CLIP (ベースサイズのモデル)
学習データ	Kinetics-400
トップ1精度	84.7%
トップ5精度	96.8%

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase