chinese-clip-vit-huge-patch14开源多模态模型 - 支持中文视觉语言任务应用

首页

Chinese Clip Vit Huge Patch14

由 OFA-Sys 开发

Chinese CLIP是一个基于Vision Transformer架构的多模态模型，支持中文视觉-语言任务。

图像分类

Transformers

#多模态理解 #零样本分类 #中文视觉识别

下载量 623

发布时间 : 11/9/2022

模型简介

该模型结合了视觉和语言处理能力，能够理解中文文本与图像的关联，适用于跨模态检索和分类任务。

模型特点

中文多模态理解

专门针对中文场景优化，能同时处理图像和中文文本输入

视觉Transformer架构

采用ViT-Base结构，16x16图像分块处理，平衡性能与效率

零样本分类能力

无需微调即可通过文本提示完成图像分类任务

模型能力

图像-文本匹配

跨模态检索

零样本图像分类

中文场景理解

使用案例

内容审核

违规内容检测

通过文本描述检测违规图像内容

可识别特定场景下的敏感内容

电子商务

商品搜索

通过自然语言描述查找匹配商品图片

提升搜索准确率和用户体验

🚀 中文CLIP-ViT-Huge-Patch14

这是中文CLIP的超大版本，使用ViT-H/14作为图像编码器，RoBERTa-wwm-large作为文本编码器。中文CLIP是在约2亿个中文图像 - 文本对的大规模数据集上对CLIP的简单实现。

🚀 快速开始

官方API使用方法

我们提供了一个简单的代码片段，展示如何使用中文CLIP的API来计算图像和文本的嵌入以及相似度。

from PIL import Image
import requests
from transformers import ChineseCLIPProcessor, ChineseCLIPModel

model = ChineseCLIPModel.from_pretrained("OFA-Sys/chinese-clip-vit-huge-patch14")
processor = ChineseCLIPProcessor.from_pretrained("OFA-Sys/chinese-clip-vit-huge-patch14")

url = "https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
# Squirtle, Bulbasaur, Charmander, Pikachu in English
texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]

# compute image feature
inputs = processor(images=image, return_tensors="pt")
image_features = model.get_image_features(**inputs)
image_features = image_features / image_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute text features
inputs = processor(text=texts, padding=True, return_tensors="pt")
text_features = model.get_text_features(**inputs)
text_features = text_features / text_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute image-text similarity scores
inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1)  # probs: [[1.1419e-02, 1.0478e-02, 5.2018e-04, 9.7758e-01]]

如果你不满足于仅使用API，可以查看我们的GitHub仓库https://github.com/OFA-Sys/Chinese-CLIP 以获取更多关于训练和推理的详细信息。

✨ 主要特性

模型信息

这是中文CLIP的超大版本，使用ViT-H/14作为图像编码器，RoBERTa-wwm-large作为文本编码器。中文CLIP是在约2亿个中文图像 - 文本对的大规模数据集上对CLIP的简单实现。更多详细信息，请参考我们的技术报告https://arxiv.org/abs/2211.01335 和我们的官方GitHub仓库https://github.com/OFA-Sys/Chinese-CLIP （欢迎点亮小星星！🔥🔥）

实验结果

MUGE文本到图像检索

模型	零样本R@1	零样本R@5	零样本R@10	零样本MR	微调R@1	微调R@5	微调R@10	微调MR
Wukong	42.7	69.0	78.0	63.2	52.7	77.9	85.6	72.1
R2D2	49.5	75.7	83.2	69.5	60.1	82.9	89.4	77.5
CN-CLIP	63.0	84.1	89.2	78.8	68.9	88.7	93.1	83.6

Flickr30K-CN检索

任务	文本到图像（零样本R@1）	文本到图像（零样本R@5）	文本到图像（零样本R@10）	文本到图像（微调R@1）	文本到图像（微调R@5）	文本到图像（微调R@10）	图像到文本（零样本R@1）	图像到文本（零样本R@5）	图像到文本（零样本R@10）	图像到文本（微调R@1）	图像到文本（微调R@5）	图像到文本（微调R@10）
Wukong	51.7	78.9	86.3	77.4	94.5	97.0	76.1	94.8	97.5	92.7	99.1	99.6
R2D2	60.9	86.8	92.7	84.4	96.7	98.4	77.6	96.7	98.9	95.6	99.8	100.0
CN-CLIP	71.2	91.4	95.5	83.8	96.9	98.6	81.6	97.5	98.8	95.3	99.7	100.0

COCO-CN检索

任务	文本到图像（零样本R@1）	文本到图像（零样本R@5）	文本到图像（零样本R@10）	文本到图像（微调R@1）	文本到图像（微调R@5）	文本到图像（微调R@10）	图像到文本（零样本R@1）	图像到文本（零样本R@5）	图像到文本（零样本R@10）	图像到文本（微调R@1）	图像到文本（微调R@5）	图像到文本（微调R@10）
Wukong	53.4	80.2	90.1	74.0	94.4	98.1	55.2	81.0	90.6	73.3	94.0	98.0
R2D2	56.4	85.0	93.1	79.1	96.5	98.9	63.3	89.3	95.7	79.3	97.1	98.7
CN-CLIP	69.2	89.9	96.1	81.5	96.9	99.1	63.0	86.6	92.9	83.5	97.3	99.2

零样本图像分类

任务	CIFAR10	CIFAR100	DTD	EuroSAT	FER	FGVC	KITTI	MNIST	PC	VOC
GIT	88.5	61.1	42.9	43.4	41.4	6.7	22.1	68.9	50.0	80.2
ALIGN	94.9	76.8	66.1	52.1	50.8	25.0	41.2	74.0	55.2	83.0
CLIP	94.9	77.0	56.0	63.0	48.3	33.3	11.5	79.0	62.3	84.0
Wukong	95.4	77.1	40.9	50.3	-	-	-	-	-	-
CN-CLIP	96.0	79.7	51.2	52.0	55.1	26.2	49.9	79.4	63.5	84.9

📚 详细文档

引用信息

如果你觉得中文CLIP有帮助，请引用我们的论文。感谢支持！

@article{chinese-clip,
  title={Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese},
  author={Yang, An and Pan, Junshu and Lin, Junyang and Men, Rui and Zhang, Yichang and Zhou, Jingren and Zhou, Chang},
  journal={arXiv preprint arXiv:2211.01335},
  year={2022}
}