X

Xclip Base Patch16 Hmdb 4 Shot

由microsoft開發
X-CLIP是CLIP的極簡擴展,用於通用視頻語言理解,通過(視頻,文本)對的對比方式進行訓練。
下載量 22
發布時間 : 9/7/2022

模型概述

該模型是基礎尺寸的X-CLIP模型,採用16像素塊分辨率,在HMDB-51數據集上以少樣本方式(K=4)訓練,適用於視頻分類任務。

模型特點

少樣本學習能力
該模型在HMDB-51數據集上僅使用4個樣本進行訓練,展現了良好的少樣本學習能力。
視頻-文本對比學習
採用(視頻,文本)對的對比學習方式,增強了模型對視頻內容的理解能力。
高效視頻處理
每視頻處理32幀,分辨率為224x224,平衡了計算效率和模型性能。

模型能力

視頻分類
視頻-文本匹配
少樣本學習

使用案例

視頻理解
人類動作識別
識別視頻中的人類動作類別
在HMDB-51數據集上達到57.3%的前1準確率
視頻檢索
基於文本的視頻檢索
根據文本描述檢索相關視頻片段
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase