T

Taiyi CLIP RoBERTa 102M ViT L Chinese

由IDEA-CCNL開發
首個開源的中文CLIP模型,基於1.23億圖文對進行預訓練,文本編碼器採用RoBERTa-base架構。
下載量 668
發布時間 : 9/27/2022

模型概述

中文視覺-語言聯合表徵模型,支持圖像分類和文本-圖像檢索任務。

模型特點

中文多模態支持
首個專門針對中文優化的CLIP模型,支持中文文本與圖像的聯合表徵
高效訓練策略
採用凍結視覺編碼器參數、僅微調語言編碼器的策略,提升訓練效率與穩定性
大規模預訓練數據
整合悟空數據集(1億樣本)與Zero數據集(2300萬樣本)進行預訓練

模型能力

零樣本圖像分類
文本-圖像檢索
多模態特徵提取

使用案例

圖像理解
零樣本圖像分類
無需微調即可對圖像進行分類
在ImageNet1k-CN上達到55.04% Top1準確率
跨模態檢索
文本到圖像檢索
根據中文文本描述檢索相關圖像
在Flickr30k-CNA測試集上達到58.32% Top1準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase