C

Chinese Clip Vit Large Patch14 336px

由OFA-Sys開發
中文CLIP是基於約2億中文圖文對數據集的CLIP簡化實現,採用ViT-L/14@336px作為圖像編碼器,RoBERTa-wwm-base作為文本編碼器。
下載量 713
發布時間 : 11/9/2022

模型概述

大規模中文視覺語言預訓練模型,支持圖文相似度計算、跨模態檢索等任務。

模型特點

大規模中文預訓練
基於2億中文圖文對數據集訓練,對中文場景有更好的理解能力
高性能跨模態檢索
在MUGE、Flickr30K-CN等中文基準測試上達到SOTA性能
零樣本遷移能力
支持零樣本圖像分類和跨模態檢索任務

模型能力

圖文相似度計算
文本到圖像檢索
圖像到文本檢索
零樣本圖像分類

使用案例

電商
商品圖文匹配
自動匹配商品圖片與描述文字
提升商品搜索準確率
內容審核
違規內容檢測
檢測圖文不一致的違規內容
提高審核效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase