Xclip Large Patch14

X

Xclip Large Patch14

由microsoft開發

X-CLIP是對CLIP的擴展，用於通用視頻-語言理解，通過對比學習在（視頻，文本）對上訓練。

文本生成視頻

英語開源協議:MIT #視頻-文本對比學習 #零樣本視頻分類 #高精度動作識別

下載量 1,698

發布時間 : 9/7/2022

模型概述

X-CLIP模型（大尺寸，14×14的補丁分辨率）在Kinetics-400數據集上進行了全監督訓練，可用於零樣本、少樣本或全監督的視頻分類以及視頻-文本檢索任務。

模型特點

視頻-語言理解

通過對比學習在（視頻，文本）對上訓練，支持視頻與文本的匹配。

高準確率

在Kinetics-400數據集上Top-1準確率達87.1%，Top-5準確率達97.6%。

多任務支持

可用於零樣本、少樣本或全監督的視頻分類以及視頻-文本檢索任務。

模型能力

視頻分類

視頻-文本檢索

零樣本學習

少樣本學習

使用案例

視頻分析

視頻分類

對視頻內容進行分類，如識別動作、場景等。

Top-1準確率87.1%，Top-5準確率97.6%。

視頻-文本檢索

根據文本描述檢索相關視頻片段。

🚀 X-CLIP（大型模型）

X-CLIP是用於通用視頻語言理解的模型，此大型模型的補丁分辨率為14，在Kinetics - 400數據集上進行了全監督訓練。它由Ni等人在論文Expanding Language - Image Pretrained Models for General Video Recognition中提出，並首次在此倉庫中發佈。該模型在視頻分類等任務中表現出色，為視頻理解領域提供了強大的工具。

🚀 快速開始

X-CLIP模型是CLIP的擴展，用於通用視頻語言理解。模型在（視頻，文本）對上進行對比訓練，可用於零樣本、少樣本或全監督視頻分類以及視頻 - 文本檢索等任務。

✨ 主要特性

多任務適用性：可用於零樣本、少樣本或全監督視頻分類以及視頻 - 文本檢索等任務。
對比訓練：在（視頻，文本）對上進行對比訓練，增強了模型對視頻和文本關聯的理解。

📚 詳細文檔

模型描述

X-CLIP是CLIP的一個最小擴展，用於通用視頻語言理解。模型在（視頻，文本）對上以對比的方式進行訓練。

X-CLIP架構

這使得模型可用於零樣本、少樣本或全監督視頻分類以及視頻 - 文本檢索等任務。

預期用途與限制

你可以使用原始模型來確定給定視頻與文本的匹配程度。可在模型中心查找針對你感興趣任務的微調版本。

使用方法

關於代碼示例，請參考文檔。

訓練數據

該模型在Kinetics - 400數據集上進行訓練。

預處理

訓練期間預處理的確切細節可在此處找到。驗證期間預處理的確切細節可在此處找到。在驗證期間，會調整每一幀較短的邊，然後進行中心裁剪以達到固定大小的分辨率（如224x224）。接下來，使用ImageNet的均值和標準差在RGB通道上對幀進行歸一化。

評估結果

該模型的top - 1準確率達到87.1%，top - 5準確率達到97.6%。

📄 許可證

本項目採用MIT許可證。

屬性	詳情
模型類型	用於通用視頻語言理解的X - CLIP大型模型
訓練數據	Kinetics - 400數據集

⚠️ 重要提示

發佈X - CLIP的團隊未為此模型編寫模型卡片，此模型卡片由Hugging Face團隊編寫。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase