X

Xclip Base Patch16 Ucf 2 Shot

由microsoft開發
X-CLIP是對CLIP的極簡擴展,用於通用視頻-語言理解。模型通過對比學習在(視頻,文本)對上訓練。
下載量 51
發布時間 : 9/7/2022

模型概述

X-CLIP模型(基礎尺寸,16x16的塊分辨率)在UCF101數據集上以少樣本方式(K=2)訓練而成,適用於視頻分類及視頻-文本檢索任務。

模型特點

少樣本學習能力
該模型在UCF101數據集上僅使用2個樣本進行訓練,展示了強大的少樣本學習能力。
視頻-語言理解
通過對比學習在(視頻,文本)對上訓練,支持視頻與文本的聯合理解。
通用視頻識別
適用於多種視頻識別任務,包括零樣本、少樣本和全監督的視頻分類。

模型能力

視頻分類
視頻-文本檢索
少樣本學習

使用案例

視頻分析
視頻分類
對視頻內容進行分類,識別視頻所屬類別。
在UCF101數據集上達到76.4%的top-1準確率。
視頻-文本檢索
根據文本描述檢索相關視頻,或根據視頻內容生成描述文本。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase