T

Taiyi CLIP Roberta Large 326M Chinese

Developed by IDEA-CCNL
首個開源的中文CLIP模型,基於1.23億圖文對預訓練,支持中文圖文特徵提取和零樣本分類
Downloads 10.37k
Release Time : 7/19/2022

Model Overview

中文多模態CLIP模型,採用RoBERTa-large作為文本編碼器,ViT-L-14作為視覺編碼器,專為中文圖文任務設計

Model Features

中文多模態支持
首個專門針對中文優化的CLIP模型,支持中文文本與圖像的聯合表徵學習
大規模預訓練
基於1.23億中文圖文對(悟空+Zero數據集)進行預訓練,學習豐富的跨模態關聯
穩定訓練策略
採用凍結視覺編碼器、僅微調文本編碼器的策略,提升訓練穩定性

Model Capabilities

零樣本圖像分類
圖文特徵提取
跨模態檢索
圖文相似度計算

Use Cases

內容檢索
中文圖像搜索
使用中文文本查詢檢索相關圖像
在Flickr30k中文測試集上Top1準確率54.36%
內容分類
零樣本圖像分類
無需微調直接對圖像進行分類
ImageNet1k中文版Top1準確率53.05%
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase