X

Xclip Base Patch16 Hmdb 16 Shot

由microsoft開發
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,支持視頻分類和視頻-文本檢索任務。
下載量 49
發布時間 : 9/7/2022

模型概述

X-CLIP模型(基礎尺寸,16x16的補丁分辨率)在HMDB-51上以少樣本方式(K=16)訓練,適用於視頻分類任務。

模型特點

少樣本學習
模型在HMDB-51數據集上以少樣本方式(K=16)訓練,適合數據稀缺場景。
視頻-文本對比學習
採用對比學習方式訓練,能夠理解視頻和文本之間的關係。
高分辨率處理
訓練時每段視頻使用32幀,分辨率為224x224,適合高分辨率視頻分析。

模型能力

視頻分類
視頻-文本檢索
少樣本學習

使用案例

視頻理解
動作識別
識別視頻中的人類動作,如跑步、跳躍等。
在HMDB-51數據集上達到64.0%的前1準確率。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase