X-CLIP開源視頻語言理解模型 - 支持多模式視頻分類任務免費部署

首頁

Xclip Base Patch16 Ucf 16 Shot

由microsoft開發

X-CLIP是CLIP的擴展版本，用於通用視頻語言理解，支持零樣本、少樣本或全監督的視頻分類任務。

視頻處理

Transformers

英語開源協議:MIT #視頻分類 #少樣本學習 #高準確率

下載量 92

發布時間 : 9/7/2022

模型概述

X-CLIP模型在UCF101數據集上以少樣本方式（K=16）訓練而成，主要用於視頻分類和視頻-文本檢索任務。

模型特點

少樣本學習

該模型在僅使用16個樣本的情況下進行訓練，展示了強大的少樣本學習能力。

視頻-文本對比學習

通過對比方式在（視頻，文本）對上訓練，支持視頻與文本的匹配任務。

高準確率

在UCF101數據集上達到91.4%的top-1準確率，表現優異。

模型能力

視頻分類

視頻-文本檢索

少樣本學習

使用案例

視頻理解

視頻分類

對視頻內容進行分類，適用於視頻內容管理、推薦系統等場景。

在UCF101數據集上達到91.4%的top-1準確率。

視頻-文本檢索

根據文本描述檢索相關視頻，適用於視頻搜索、內容審核等場景。

🚀 X-CLIP（基礎大小模型）

X-CLIP是一個用於通用視頻語言理解的模型，它在視頻分類和視頻文本檢索等任務中表現出色。該模型基於CLIP進行了擴展，通過在（視頻，文本）對上進行對比訓練，使其能夠處理多種視頻相關任務。

🚀 快速開始

X-CLIP模型（基礎大小，補丁分辨率為16）以少樣本方式（K = 16）在UCF101上進行訓練。它由Ni等人在論文Expanding Language - Image Pretrained Models for General Video Recognition中提出，並首次在[此倉庫](https://github.com/microsoft/VideoX/tree/master/X - CLIP)發佈。

本模型在訓練時每個視頻使用32幀，分辨率為224x224。

免責聲明：發佈X - CLIP的團隊未為此模型編寫模型卡片，此模型卡片由Hugging Face團隊編寫。

✨ 主要特性

通用視頻語言理解：X - CLIP是CLIP的擴展，用於通用視頻語言理解。模型以對比方式在（視頻，文本）對上進行訓練。
多任務適用性：可用於零樣本、少樣本或全監督視頻分類以及視頻文本檢索等任務。

💻 使用示例

基礎用法

如需代碼示例，請參考文檔。

📚 詳細文檔

預期用途和限制

你可以使用原始模型來確定給定視頻與文本的匹配程度。請查看模型中心，以查找針對你感興趣的任務進行微調的版本。

訓練數據

本模型在UCF101上進行訓練。

預處理

訓練期間預處理的確切細節可在[此處](https://github.com/microsoft/VideoX/blob/40f6d177e0a057a50ac69ac1de6b5938fd268601/X - CLIP/datasets/build.py#L247)找到。驗證期間預處理的確切細節可在[此處](https://github.com/microsoft/VideoX/blob/40f6d177e0a057a50ac69ac1de6b5938fd268601/X - CLIP/datasets/build.py#L285)找到。在驗證期間，會調整每一幀的較短邊大小，然後進行中心裁剪以達到固定大小的分辨率（如224x224）。接下來，使用ImageNet的均值和標準差在RGB通道上對幀進行歸一化。