chinese-clip-vit-large-patch14-336pxオープンソースモデル - 中国語の画像とテキストのマッチングアプリケーションを支援する

ホーム

Chinese Clip Vit Large Patch14 336px

OFA-Sysによって開発

中国語CLIPは約2億組の中国語画像テキストペアデータセットに基づくCLIPの簡易実装で、ViT-L/14@336pxを画像エンコーダー、RoBERTa-wwm-baseをテキストエンコーダーとして採用しています。

テキスト生成画像

Transformers

#中文画像検索 #ゼロショット学習 #マルチモーダル事前学習

ダウンロード数 713

リリース時間 : 11/9/2022

モデル概要

大規模な中国語視覚言語事前学習モデルで、画像テキスト類似度計算やクロスモーダル検索などのタスクをサポートします。

モデル特徴

大規模中国語事前学習

2億組の中国語画像テキストペアデータセットで訓練され、中国語シーンに対する理解能力が優れています

高性能クロスモーダル検索

MUGE、Flickr30K-CNなどの中国語ベンチマークでSOTA性能を達成

ゼロショット転移能力

ゼロショット画像分類やクロスモーダル検索タスクをサポート

モデル能力

画像テキスト類似度計算

テキストから画像への検索

画像からテキストへの検索

ゼロショット画像分類

使用事例

商品画像テキストマッチング

商品画像と説明文を自動的にマッチング

商品検索の精度向上

コンテンツ審査

違反コンテンツ検出

画像とテキストが不一致な違反コンテンツを検出

審査効率の向上

🚀 Chinese-CLIP-ViT-Large-Patch14-336px

このモデルは、中国語版CLIPの大規模バージョンです。画像エンコーダにViT-L/14@336px、テキストエンコーダにRoBERTa-wwm-baseを使用しています。Chinese CLIPは、約2億件の中国語の画像とテキストのペアからなる大規模データセットを用いたCLIPのシンプルな実装です。詳細については、技術レポートhttps://arxiv.org/abs/2211.01335 と公式のGitHubリポジトリhttps://github.com/OFA-Sys/Chinese-CLIP を参照してください（スターをつけることをおすすめします🔥🔥）。

🚀 クイックスタート

✨ 主な機能

このモデルは、中国語の画像とテキストのペアを用いて学習されたCLIPモデルです。画像とテキストの埋め込みベクトルを計算し、それらの類似度を求めることができます。

📦 インストール

このセクションでは、原READMEにインストール手順が記載されていないため、省略します。

💻 使用例

基本的な使用法

from PIL import Image
import requests
from transformers import ChineseCLIPProcessor, ChineseCLIPModel

model = ChineseCLIPModel.from_pretrained("OFA-Sys/chinese-clip-vit-large-patch14-336px")
processor = ChineseCLIPProcessor.from_pretrained("OFA-Sys/chinese-clip-vit-large-patch14-336px")

url = "https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
# Squirtle, Bulbasaur, Charmander, Pikachu in English
texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]

# compute image feature
inputs = processor(images=image, return_tensors="pt")
image_features = model.get_image_features(**inputs)
image_features = image_features / image_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute text features
inputs = processor(text=texts, padding=True, return_tensors="pt")
text_features = model.get_text_features(**inputs)
text_features = text_features / text_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute image-text similarity scores
inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1)  # probs: [[0.0219, 0.0316, 0.0043, 0.9423]]

📚 ドキュメント

結果

MUGE Text-to-Image Retrieval

Setup	Zero-shot R@1	Zero-shot R@5	Zero-shot R@10	Zero-shot MR	Finetune R@1	Finetune R@5	Finetune R@10	Finetune MR
Wukong	42.7	69.0	78.0	63.2	52.7	77.9	85.6	72.1
R2D2	49.5	75.7	83.2	69.5	60.1	82.9	89.4	77.5
CN-CLIP	63.0	84.1	89.2	78.8	68.9	88.7	93.1	83.6

Flickr30K-CN Retrieval

Task	Setup	Zero-shot R@1	Zero-shot R@5	Zero-shot R@10	Finetune R@1	Finetune R@5	Finetune R@10
Text-to-Image	Wukong	51.7	78.9	86.3	77.4	94.5	97.0
	R2D2	60.9	86.8	92.7	84.4	96.7	98.4
	CN-CLIP	71.2	91.4	95.5	83.8	96.9	98.6
Image-to-Text	Wukong	76.1	94.8	97.5	92.7	99.1	99.6
	R2D2	77.6	96.7	98.9	95.6	99.8	100.0
	CN-CLIP	81.6	97.5	98.8	95.3	99.7	100.0

COCO-CN Retrieval

Task	Setup	Zero-shot R@1	Zero-shot R@5	Zero-shot R@10	Finetune R@1	Finetune R@5	Finetune R@10
Text-to-Image	Wukong	53.4	80.2	90.1	74.0	94.4	98.1
	R2D2	56.4	85.0	93.1	79.1	96.5	98.9
	CN-CLIP	69.2	89.9	96.1	81.5	96.9	99.1
Image-to-Text	Wukong	55.2	81.0	90.6	73.3	94.0	98.0
	R2D2	63.3	89.3	95.7	79.3	97.1	98.7
	CN-CLIP	63.0	86.6	92.9	83.5	97.3	99.2

Zero-shot Image Classification

Task	CIFAR10	CIFAR100	DTD	EuroSAT	FER	FGVC	KITTI	MNIST	PC	VOC
GIT	88.5	61.1	42.9	43.4	41.4	6.7	22.1	68.9	50.0	80.2
ALIGN	94.9	76.8	66.1	52.1	50.8	25.0	41.2	74.0	55.2	83.0
CLIP	94.9	77.0	56.0	63.0	48.3	33.3	11.5	79.0	62.3	84.0
Wukong	95.4	77.1	40.9	50.3	-	-	-	-	-	-
CN-CLIP	96.0	79.7	51.2	52.0	55.1	26.2	49.9	79.4	63.5	84.9

📄 ライセンス

このセクションでは、原READMEにライセンス情報が記載されていないため、省略します。

🔧 技術詳細

このセクションでは、原READMEに技術詳細が十分に記載されていないため、省略します。

📖 引用

もしChinese CLIPが役に立った場合は、以下の論文を引用してください。ありがとうございます！

@article{chinese-clip,
  title={Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese},
  author={Yang, An and Pan, Junshu and Lin, Junyang and Men, Rui and Zhang, Yichang and Zhou, Jingren and Zhou, Chang},
  journal={arXiv preprint arXiv:2211.01335},
  year={2022}
}