chinese-clip-vit-large-patch14-336px开源模型 - 助力中文图文匹配应用

首页

Chinese Clip Vit Large Patch14 336px

由 OFA-Sys 开发

中文CLIP是基于约2亿中文图文对数据集的CLIP简化实现，采用ViT-L/14@336px作为图像编码器，RoBERTa-wwm-base作为文本编码器。

文本生成图像

Transformers

#中文图文检索 #零样本学习 #多模态预训练

下载量 713

发布时间 : 11/9/2022

模型简介

大规模中文视觉语言预训练模型，支持图文相似度计算、跨模态检索等任务。

模型特点

大规模中文预训练

基于2亿中文图文对数据集训练，对中文场景有更好的理解能力

高性能跨模态检索

在MUGE、Flickr30K-CN等中文基准测试上达到SOTA性能

零样本迁移能力

支持零样本图像分类和跨模态检索任务

模型能力

图文相似度计算

文本到图像检索

图像到文本检索

零样本图像分类

使用案例

电商

商品图文匹配

自动匹配商品图片与描述文字

提升商品搜索准确率

内容审核

违规内容检测

检测图文不一致的违规内容

提高审核效率

🚀 中文CLIP-ViT-Large-Patch14-336px

这是中文CLIP的大版本模型，使用ViT-L/14@336px作为图像编码器，RoBERTa-wwm-base作为文本编码器。中文CLIP是在约2亿个中文图像 - 文本对的大规模数据集上对CLIP的简单实现。更多详细信息，请参考我们的技术报告https://arxiv.org/abs/2211.01335 和我们的官方GitHub仓库https://github.com/OFA-Sys/Chinese-CLIP （欢迎点亮小星星！🔥🔥）

🚀 快速开始

✨ 主要特性

本项目是中文CLIP的大版本模型，其特点在于使用了特定的图像编码器和文本编码器，在大规模的中文图像 - 文本数据集上进行训练。

📦 安装指南

文档未提及安装步骤，跳过该章节。

💻 使用示例

基础用法

from PIL import Image
import requests
from transformers import ChineseCLIPProcessor, ChineseCLIPModel

model = ChineseCLIPModel.from_pretrained("OFA-Sys/chinese-clip-vit-large-patch14-336px")
processor = ChineseCLIPProcessor.from_pretrained("OFA-Sys/chinese-clip-vit-large-patch14-336px")

url = "https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
# Squirtle, Bulbasaur, Charmander, Pikachu in English
texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]

# compute image feature
inputs = processor(images=image, return_tensors="pt")
image_features = model.get_image_features(**inputs)
image_features = image_features / image_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute text features
inputs = processor(text=texts, padding=True, return_tensors="pt")
text_features = model.get_text_features(**inputs)
text_features = text_features / text_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute image-text similarity scores
inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1)  # probs: [[0.0219, 0.0316, 0.0043, 0.9423]]

📚 详细文档

实验结果

MUGE文本到图像检索

配置	零样本R@1	零样本R@5	零样本R@10	零样本MR	微调R@1	微调R@5	微调R@10	微调MR
Wukong	42.7	69.0	78.0	63.2	52.7	77.9	85.6	72.1
R2D2	49.5	75.7	83.2	69.5	60.1	82.9	89.4	77.5
CN - CLIP	63.0	84.1	89.2	78.8	68.9	88.7	93.1	83.6

Flickr30K - CN检索

任务	文本到图像零样本R@1	文本到图像零样本R@5	文本到图像零样本R@10	文本到图像微调R@1	文本到图像微调R@5	文本到图像微调R@10	图像到文本零样本R@1	图像到文本零样本R@5	图像到文本零样本R@10	图像到文本微调R@1	图像到文本微调R@5	图像到文本微调R@10
Wukong	51.7	78.9	86.3	77.4	94.5	97.0	76.1	94.8	97.5	92.7	99.1	99.6
R2D2	60.9	86.8	92.7	84.4	96.7	98.4	77.6	96.7	98.9	95.6	99.8	100.0
CN - CLIP	71.2	91.4	95.5	83.8	96.9	98.6	81.6	97.5	98.8	95.3	99.7	100.0

COCO - CN检索

任务	文本到图像零样本R@1	文本到图像零样本R@5	文本到图像零样本R@10	文本到图像微调R@1	文本到图像微调R@5	文本到图像微调R@10	图像到文本零样本R@1	图像到文本零样本R@5	图像到文本零样本R@10	图像到文本微调R@1	图像到文本微调R@5	图像到文本微调R@10
Wukong	53.4	80.2	90.1	74.0	94.4	98.1	55.2	81.0	90.6	73.3	94.0	98.0
R2D2	56.4	85.0	93.1	79.1	96.5	98.9	63.3	89.3	95.7	79.3	97.1	98.7
CN - CLIP	69.2	89.9	96.1	81.5	96.9	99.1	63.0	86.6	92.9	83.5	97.3	99.2

零样本图像分类

任务	CIFAR10	CIFAR100	DTD	EuroSAT	FER	FGVC	KITTI	MNIST	PC	VOC
GIT	88.5	61.1	42.9	43.4	41.4	6.7	22.1	68.9	50.0	80.2
ALIGN	94.9	76.8	66.1	52.1	50.8	25.0	41.2	74.0	55.2	83.0
CLIP	94.9	77.0	56.0	63.0	48.3	33.3	11.5	79.0	62.3	84.0
Wukong	95.4	77.1	40.9	50.3	-	-	-	-	-	-
CN - CLIP	96.0	79.7	51.2	52.0	55.1	26.2	49.9	79.4	63.5	84.9

📄 许可证

文档未提及许可证信息，跳过该章节。

🔧 技术细节

文档未提供具体技术实现细节，跳过该章节。

📚 引用

如果您觉得中文CLIP有帮助，请引用我们的论文。感谢您的支持！

@article{chinese-clip,
  title={Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese},
  author={Yang, An and Pan, Junshu and Lin, Junyang and Men, Rui and Zhang, Yichang and Zhou, Jingren and Zhou, Chang},
  journal={arXiv preprint arXiv:2211.01335},
  year={2022}
}