C

Chinese Clip Vit Base Patch16

由OFA-Sys開發
中文CLIP的基礎版本,採用ViT-B/16作為圖像編碼器,RoBERTa-wwm-base作為文本編碼器,在約2億中文圖文對的大規模數據集上訓練。
下載量 49.02k
發布時間 : 11/9/2022

模型概述

中文CLIP是一個視覺-語言模型,能夠計算圖像和文本的嵌入及相似度,支持中文圖文檢索和分類任務。

模型特點

中文優化
專門針對中文語言和場景優化,支持中文圖文檢索和分類任務。
大規模訓練
在約2億中文圖文對的大規模數據集上訓練,具有強大的泛化能力。
多任務支持
支持多種視覺-語言任務,包括圖文檢索、圖像分類等。

模型能力

計算圖像和文本的嵌入
計算圖文相似度
中文圖文檢索
零樣本圖像分類

使用案例

電子商務
商品搜索
通過文本描述搜索相關商品圖片
在MUGE數據集上R@1達到63.0
內容審核
違規內容檢測
通過文本描述檢測違規圖片
社交媒體
圖文匹配
為圖片自動生成合適的文字描述
在Flickr30K-CN數據集上圖像到文本R@1達到81.6
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase