T

Taiyi CLIP RoBERTa 326M ViT H Chinese

由IDEA-CCNL開發
首個開源的中文CLIP模型,基於1.23億圖文對進行預訓練,文本編碼器採用RoBERTa-large架構。
下載量 108
發布時間 : 9/26/2022

模型概述

該模型是一個視覺-語言表徵系統,能夠進行圖像和文本的聯合特徵提取,支持零樣本圖像分類和文本-圖像檢索任務。

模型特點

中文多模態理解
專門針對中文場景優化的視覺-語言聯合表徵能力
大規模預訓練
基於1.23億中文圖文對進行預訓練,覆蓋廣泛視覺概念
高效架構設計
凍結視覺編碼器參數,僅微調語言編碼器,提升訓練效率

模型能力

零樣本圖像分類
文本-圖像檢索
多模態特徵提取
跨模態相似度計算

使用案例

圖像理解
零樣本圖像分類
無需特定訓練即可對圖像進行分類
在ImageNet1k-CN上達到54.35% Top1準確率
跨模態檢索
文本到圖像檢索
根據文本描述檢索相關圖像
在Flickr30k-CNA測試集上達到60.82% Top1準確率
圖像到文本檢索
根據圖像檢索相關文本描述
在COCO-CN測試集上達到60.02% Top1準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase