T

Taiyi CLIP Roberta Large 326M Chinese

由IDEA-CCNL開發
首個開源的中文CLIP模型,基於1.23億圖文對預訓練,支持中文圖文特徵提取和零樣本分類
下載量 10.37k
發布時間 : 7/19/2022

模型概述

中文多模態CLIP模型,採用RoBERTa-large作為文本編碼器,ViT-L-14作為視覺編碼器,專為中文圖文任務設計

模型特點

中文多模態支持
首個專門針對中文優化的CLIP模型,支持中文文本與圖像的聯合表徵學習
大規模預訓練
基於1.23億中文圖文對(悟空+Zero數據集)進行預訓練,學習豐富的跨模態關聯
穩定訓練策略
採用凍結視覺編碼器、僅微調文本編碼器的策略,提升訓練穩定性

模型能力

零樣本圖像分類
圖文特徵提取
跨模態檢索
圖文相似度計算

使用案例

內容檢索
中文圖像搜索
使用中文文本查詢檢索相關圖像
在Flickr30k中文測試集上Top1準確率54.36%
內容分類
零樣本圖像分類
無需微調直接對圖像進行分類
ImageNet1k中文版Top1準確率53.05%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase