Xclip Base Patch16 Zero Shot

X

Xclip Base Patch16 Zero Shot

Developed by aurelio-ai

X-CLIPはCLIPのミニマルな拡張で、一般的なビデオと言語の理解のために、ビデオとテキストのマッチング関係を対照学習でトレーニングします。

テキスト生成ビデオ

EnglishOpen Source License:MIT #ビデオテキスト対照学習 #ゼロショットビデオ分類 #マルチモーダル理解

Downloads 22

Release Time : 11/8/2023

Model Overview

X-CLIPモデル（ベースサイズ、16x16のパッチ解像度）はKinetics-400でトレーニングされ、ゼロショット、少数ショット、または完全教師ありのビデオ分類、およびビデオ-テキスト検索などのタスクに適しています。

Model Features

ゼロショットビデオ分類

微調整なしで直接ビデオ分類タスクに適用可能、ゼロショット学習をサポート。

ビデオ-テキストマッチング

テキスト記述と与えられたビデオ内容のマッチング度合いを判断可能。

マルチタスクサポート

ビデオ分類、ビデオ-テキスト検索など、複数のタスクをサポート。

Model Capabilities

ビデオ分類

ビデオ-テキスト検索

ゼロショット学習

Use Cases

ビデオ理解

ビデオ分類

ビデオ内容を分類、例えばアクション認識、シーン認識など。

HMDB-51でゼロショットtop-1精度44.6%、UCF-101で72.0%、Kinetics-600で65.2%。

ビデオ-テキスト検索

テキスト記述に基づいて関連するビデオ内容を検索。

🚀 X-CLIP (ベースサイズのモデル)

X-CLIPモデル（ベースサイズ、パッチ解像度16）は、Kinetics-400で学習されました。このモデルは、Niらによる論文Expanding Language-Image Pretrained Models for General Video Recognitionで紹介され、最初はthis repositoryで公開されました。

このモデルは、1つのビデオあたり32フレームを使用し、解像度224x224で学習されました。

免責事項: X-CLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

X-CLIPは、一般的なビデオと言語の理解のために、CLIPを最小限拡張したモデルです。このモデルは、（ビデオ、テキスト）のペアで対照的に学習されています。

X-CLIP architecture

これにより、このモデルはゼロショット、フューションショット、または完全教師付きのビデオ分類やビデオテキスト検索などのタスクに使用できます。

🚀 クイックスタート

想定される用途と制限

生のモデルを使用して、与えられたビデオとテキストの適合度を判断できます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

コード例については、ドキュメントを参照してください。

📚 ドキュメント

学習データ

このモデルは、Kinetics 400で学習されました。

前処理

学習時の前処理の正確な詳細は、こちらにあります。

検証時の前処理の正確な詳細は、こちらにあります。

検証時には、各フレームの短い辺をリサイズした後、固定サイズの解像度（例：224x224）にセンタークロップを行います。次に、フレームはImageNetの平均と標準偏差を使用してRGBチャネル全体で正規化されます。

評価結果

このモデルは、HMDB-51でゼロショットのトップ1精度が44.6％、UCF-101で72.0％、Kinetics-600で65.2％を達成しています。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

属性	详情
モデルタイプ	X-CLIP (ベースサイズのモデル)
学習データ	Kinetics 400

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers English

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase