T

Taiyi CLIP Roberta 102M Chinese

由IDEA-CCNL開發
首個開源的中文CLIP模型,基於1.23億圖文對進行預訓練,文本編碼器採用RoBERTa-base架構。
下載量 558
發布時間 : 7/9/2022

模型概述

該模型是一箇中文視覺-語言表徵模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類和圖文檢索任務。

模型特點

中文支持
首個專門針對中文優化的CLIP模型,文本編碼器採用中文RoBERTa-wwm架構
大規模預訓練
基於1.23億中文圖文對進行預訓練,包含悟空數據集和360Zero數據集
高效訓練策略
凍結視覺編碼器參數,僅微調語言編碼器,提高訓練效率和穩定性

模型能力

零樣本圖像分類
圖文特徵提取
跨模態檢索
圖像-文本相似度計算

使用案例

圖像理解
零樣本圖像分類
無需微調即可對圖像進行分類
在ImageNet1k中文版上Top1準確率42.85%
信息檢索
圖文檢索
根據文本搜索相關圖像或根據圖像搜索相關文本
在Flickr30k中文測試集上Top1準確率46.32%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase