chinese-clip-vit-large-patch14開源模型 - 支持中文視覺語言任務應用

首頁

Chinese Clip Vit Large Patch14

由OFA-Sys開發

中文CLIP模型，基於VIT架構，支持中文視覺語言任務

圖像分類

Transformers

#中文多模態理解 #零樣本圖像分類 #視覺-文本對齊

下載量 2,333

發布時間 : 11/9/2022

模型概述

這是一個基於Vision Transformer架構的中文CLIP模型，能夠處理圖像和文本的聯合表示學習，適用於跨模態檢索和分類任務。

模型特點

中文跨模態理解

專門針對中文場景優化的視覺語言聯合表示模型

高效視覺編碼

基於ViT架構，能高效處理圖像輸入

零樣本分類能力

支持基於文本描述的零樣本圖像分類

模型能力

圖像文本匹配

跨模態檢索

零樣本圖像分類

中文視覺語言理解

使用案例

內容審核

違規內容檢測

通過文本描述檢測違規圖像內容

可識別特定類型的違規內容

電子商務

商品搜索

通過文本描述搜索相關商品圖片

提高商品搜索準確率

社交媒體

內容推薦

根據用戶興趣推薦相關圖文內容

提升用戶參與度

🚀 中文CLIP - ViT大尺寸Patch14模型

本項目是中文CLIP的大尺寸版本，採用ViT - L/14作為圖像編碼器，RoBERTa - wwm - base作為文本編碼器。中文CLIP是在約2億個中文圖像 - 文本對的大規模數據集上對CLIP的簡單實現。更多詳細信息，請參考我們的技術報告https://arxiv.org/abs/2211.01335和我們的官方GitHub倉庫[https://github.com/OFA - Sys/Chinese - CLIP](https://github.com/OFA - Sys/Chinese - CLIP)（歡迎點星！🔥🔥）

🚀 快速開始

官方API使用方法

我們提供了一個簡單的代碼片段，展示如何使用中文CLIP的API來計算圖像和文本的嵌入向量以及相似度。

from PIL import Image
import requests
from transformers import ChineseCLIPProcessor, ChineseCLIPModel

model = ChineseCLIPModel.from_pretrained("OFA-Sys/chinese-clip-vit-large-patch14")
processor = ChineseCLIPProcessor.from_pretrained("OFA-Sys/chinese-clip-vit-large-patch14")

url = "https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
# Squirtle, Bulbasaur, Charmander, Pikachu in English
texts = ["傑尼龜", "妙蛙種子", "小火龍", "皮卡丘"]

# compute image feature
inputs = processor(images=image, return_tensors="pt")
image_features = model.get_image_features(**inputs)
image_features = image_features / image_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute text features
inputs = processor(text=texts, padding=True, return_tensors="pt")
text_features = model.get_text_features(**inputs)
text_features = text_features / text_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute image-text similarity scores
inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1)  # probs: [[0.0066, 0.0211, 0.0031, 0.9692]]

如果你不滿足於僅使用API，歡迎查看我們的GitHub倉庫[https://github.com/OFA - Sys/Chinese - CLIP](https://github.com/OFA - Sys/Chinese - CLIP)，以獲取更多關於訓練和推理的詳細信息。

📊 實驗結果

MUGE文本到圖像檢索

設置	零樣本（Zero - shot）				微調（Finetune）
指標	R@1	R@5	R@10	MR	R@1	R@5	R@10	MR
悟空（Wukong）	42.7	69.0	78.0	63.2	52.7	77.9	85.6	72.1
R2D2	49.5	75.7	83.2	69.5	60.1	82.9	89.4	77.5
CN - CLIP	63.0	84.1	89.2	78.8	68.9	88.7	93.1	83.6

Flickr30K - CN檢索

任務	文本到圖像（Text - to - Image）						圖像到文本（Image - to - Text）
設置	零樣本			微調			零樣本			微調
指標	R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10
悟空（Wukong）	51.7	78.9	86.3	77.4	94.5	97.0	76.1	94.8	97.5	92.7	99.1	99.6
R2D2	60.9	86.8	92.7	84.4	96.7	98.4	77.6	96.7	98.9	95.6	99.8	100.0
CN - CLIP	71.2	91.4	95.5	83.8	96.9	98.6	81.6	97.5	98.8	95.3	99.7	100.0

COCO - CN檢索

任務	文本到圖像（Text - to - Image）						圖像到文本（Image - to - Text）
設置	零樣本			微調			零樣本			微調
指標	R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10	R@1	R@5	R@10
悟空（Wukong）	53.4	80.2	90.1	74.0	94.4	98.1	55.2	81.0	90.6	73.3	94.0	98.0
R2D2	56.4	85.0	93.1	79.1	96.5	98.9	63.3	89.3	95.7	79.3	97.1	98.7
CN - CLIP	69.2	89.9	96.1	81.5	96.9	99.1	63.0	86.6	92.9	83.5	97.3	99.2

零樣本圖像分類

任務	CIFAR10	CIFAR100	DTD	EuroSAT	FER	FGVC	KITTI	MNIST	PC	VOC
GIT	88.5	61.1	42.9	43.4	41.4	6.7	22.1	68.9	50.0	80.2
ALIGN	94.9	76.8	66.1	52.1	50.8	25.0	41.2	74.0	55.2	83.0
CLIP	94.9	77.0	56.0	63.0	48.3	33.3	11.5	79.0	62.3	84.0
悟空（Wukong）	95.4	77.1	40.9	50.3	-	-	-	-	-	-
CN - CLIP	96.0	79.7	51.2	52.0	55.1	26.2	49.9	79.4	63.5	84.9

📖 引用

如果您覺得中文CLIP很有幫助，請引用我們的論文。感謝您的支持！

@article{chinese-clip,
  title={Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese},
  author={Yang, An and Pan, Junshu and Lin, Junyang and Men, Rui and Zhang, Yichang and Zhou, Jingren and Zhou, Chang},
  journal={arXiv preprint arXiv:2211.01335},
  year={2022}
}