X-CLIP開源模型 - 支持視頻分類與文本檢索的通用視頻語言理解工具

首頁

Xclip Base Patch16 Hmdb 16 Shot

由microsoft開發

X-CLIP是CLIP的擴展版本，用於通用視頻語言理解，支持視頻分類和視頻-文本檢索任務。

視頻處理

Transformers

英語開源協議:MIT #視頻分類 #少樣本學習 #對比學習

下載量 49

發布時間 : 9/7/2022

模型概述

X-CLIP模型（基礎尺寸，16x16的補丁分辨率）在HMDB-51上以少樣本方式（K=16）訓練，適用於視頻分類任務。

模型特點

少樣本學習

模型在HMDB-51數據集上以少樣本方式（K=16）訓練，適合數據稀缺場景。

視頻-文本對比學習

採用對比學習方式訓練，能夠理解視頻和文本之間的關係。

高分辨率處理

訓練時每段視頻使用32幀，分辨率為224x224，適合高分辨率視頻分析。

模型能力

視頻分類

視頻-文本檢索

少樣本學習

使用案例

視頻理解

動作識別

識別視頻中的人類動作，如跑步、跳躍等。

在HMDB-51數據集上達到64.0%的前1準確率。

🚀 X-CLIP（基礎大小模型）

X-CLIP是一個用於通用視頻語言理解的模型，它在視頻分類和視頻文本檢索等任務中表現出色，能以少樣本學習的方式在特定數據集上進行訓練。

🚀 快速開始

X-CLIP（基礎大小，補丁分辨率為16）模型以少樣本學習的方式（K = 16）在 HMDB - 51 數據集上進行訓練。該模型由Ni等人在論文 Expanding Language - Image Pretrained Models for General Video Recognition 中提出，並首次在 [此倉庫](https://github.com/microsoft/VideoX/tree/master/X - CLIP) 中發佈。

此模型在訓練時每個視頻使用32幀，分辨率為224x224。

免責聲明：發佈X - CLIP的團隊未為此模型編寫模型卡片，此模型卡片由Hugging Face團隊編寫。