T

Taiyi Vit 87M D

由IDEA-CCNL開發
基於COCO和Visual Genome數據集進行特殊預訓練的英文版MAP視覺編碼器,採用ViT-base架構
下載量 24
發布時間 : 5/4/2022

模型概述

該模型是基於CLIP-ViT-base架構的視覺編碼器,通過特殊訓練任務注入多模態信息,適用於圖像分類等視覺任務

模型特點

特殊預訓練方案
採用新型預訓練方法D,通過特殊訓練任務注入多模態信息
高性能表現
在CIFAR10和ImageNet1k等基準測試上優於原始CLIP-ViT-base模型
多模態表徵
預訓練數據來自MSCOCO和VG數據集,具備多模態理解能力

模型能力

圖像分類
視覺特徵提取
多模態表徵學習

使用案例

計算機視覺
圖像分類
對輸入圖像進行分類,支持ImageNet千分類任務
在ImageNet1k上達到82.4%準確率
視覺特徵提取
提取圖像的高層次視覺特徵,可用於下游任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase