X

Xclip Base Patch16 Hmdb 2 Shot

由microsoft開發
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在視頻和文本對上訓練,支持零樣本、少樣本和全監督的視頻分類任務。
下載量 19
發布時間 : 9/7/2022

模型概述

X-CLIP模型(基礎尺寸,16x16的補丁分辨率)在HMDB-51上以少樣本方式(K=2)訓練,適用於視頻分類和視頻-文本檢索等任務。

模型特點

少樣本學習能力
該模型在HMDB-51數據集上僅使用2個樣本進行訓練,展示了強大的少樣本學習能力。
視頻-文本對比學習
通過對比學習方式訓練,能夠理解視頻內容與文本描述之間的關係。
多任務支持
支持零樣本、少樣本和全監督的視頻分類任務,以及視頻-文本檢索等應用。

模型能力

視頻分類
視頻-文本檢索
少樣本學習
零樣本推理

使用案例

視頻理解
動作識別
識別視頻中的人類動作
在HMDB-51數據集上達到53.0%的top-1準確率
視頻內容檢索
根據文本描述檢索相關視頻片段
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase