X-CLIP開源視頻-語言理解模型 - 輕鬆實現通用視頻內容與文本交互理解

首頁

Xclip Base Patch16 Ucf 2 Shot

由microsoft開發

X-CLIP是對CLIP的極簡擴展，用於通用視頻-語言理解。模型通過對比學習在（視頻，文本）對上訓練。

文本生成視頻

Transformers

英語開源協議:MIT #視頻-文本對比學習 #少樣本視頻分類 #通用視頻識別

下載量 51

發布時間 : 9/7/2022

模型概述

X-CLIP模型（基礎尺寸，16x16的塊分辨率）在UCF101數據集上以少樣本方式（K=2）訓練而成，適用於視頻分類及視頻-文本檢索任務。

模型特點

少樣本學習能力

該模型在UCF101數據集上僅使用2個樣本進行訓練，展示了強大的少樣本學習能力。

視頻-語言理解

通過對比學習在（視頻，文本）對上訓練，支持視頻與文本的聯合理解。

通用視頻識別

適用於多種視頻識別任務，包括零樣本、少樣本和全監督的視頻分類。

模型能力

視頻分類

視頻-文本檢索

少樣本學習

使用案例

視頻分析

視頻分類

對視頻內容進行分類，識別視頻所屬類別。

在UCF101數據集上達到76.4%的top-1準確率。

視頻-文本檢索

根據文本描述檢索相關視頻，或根據視頻內容生成描述文本。

🚀 X-CLIP（基礎大小模型）

X-CLIP是一個用於通用視頻語言理解的模型，它在視頻分類和視頻文本檢索等任務中表現出色。本模型基於基礎大小、16的補丁分辨率，在UCF101數據集上進行了少樣本（K=2）訓練。

🚀 快速開始

X-CLIP（基礎大小模型）是在UCF101數據集上以少樣本方式（K = 2）訓練的模型。它由Ni等人在論文Expanding Language - Image Pretrained Models for General Video Recognition中提出，並首次在[此倉庫](https://github.com/microsoft/VideoX/tree/master/X - CLIP)發佈。

該模型每個視頻使用32幀進行訓練，分辨率為224x224。

聲明：發佈X - CLIP的團隊未為此模型編寫模型卡片，此卡片由Hugging Face團隊編寫。

✨ 主要特性

通用視頻語言理解：X - CLIP是CLIP的擴展，用於通用視頻語言理解。
對比訓練：模型在（視頻，文本）對上進行對比訓練，可用於零樣本、少樣本或全監督視頻分類和視頻文本檢索等任務。
可視化架構：通過架構圖可直觀瞭解模型結構。

📚 詳細文檔

模型描述

X - CLIP是CLIP的最小擴展，用於通用視頻語言理解。模型在（視頻，文本）對上進行對比訓練，使其能夠用於零樣本、少樣本或全監督視頻分類和視頻文本檢索等任務。

X - CLIP架構

預期用途和限制

你可以使用原始模型來判斷給定視頻與文本的匹配程度。可在模型中心查找針對你感興趣任務的微調版本。

使用方法

有關代碼示例，請參考文檔。

訓練數據

該模型在UCF101數據集上進行訓練。

預處理

訓練期間預處理的確切細節可在[此處](https://github.com/microsoft/VideoX/blob/40f6d177e0a057a50ac69ac1de6b5938fd268601/X - CLIP/datasets/build.py#L247)找到。驗證期間預處理的確切細節可在[此處](https://github.com/microsoft/VideoX/blob/40f6d177e0a057a50ac69ac1de6b5938fd268601/X - CLIP/datasets/build.py#L285)找到。

在驗證期間，會調整每一幀的較短邊大小，然後進行中心裁剪以達到固定分辨率（如224x224）。接著，使用ImageNet的均值和標準差對幀的RGB通道進行歸一化。