🚀 Chinese-CLIP-ViT-Large-Patch14
このモデルは、中国語版CLIPの大規模バージョンです。画像エンコーダにViT-L/14、テキストエンコーダにRoBERTa-wwm-baseを使用しています。Chinese CLIPは、約2億の中国語の画像-テキストペアの大規模データセットでCLIPを実装したものです。詳細については、技術レポートhttps://arxiv.org/abs/2211.01335 と公式GitHubリポジトリhttps://github.com/OFA-Sys/Chinese-CLIP を参照してください。(スターをつけることをおすすめします🔥🔥)
🚀 クイックスタート
✨ 主な機能
このモデルは、中国語の画像とテキストの埋め込みを計算し、それらの類似度を求めることができます。大規模な中国語の画像-テキストデータセットで学習されており、高い性能を発揮します。
📦 インストール
このセクションでは、具体的なインストール手順が提供されていないため、省略します。
💻 使用例
基本的な使用法
from PIL import Image
import requests
from transformers import ChineseCLIPProcessor, ChineseCLIPModel
model = ChineseCLIPModel.from_pretrained("OFA-Sys/chinese-clip-vit-large-patch14")
processor = ChineseCLIPProcessor.from_pretrained("OFA-Sys/chinese-clip-vit-large-patch14")
url = "https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]
inputs = processor(images=image, return_tensors="pt")
image_features = model.get_image_features(**inputs)
image_features = image_features / image_features.norm(p=2, dim=-1, keepdim=True)
inputs = processor(text=texts, padding=True, return_tensors="pt")
text_features = model.get_text_features(**inputs)
text_features = text_features / text_features.norm(p=2, dim=-1, keepdim=True)
inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
📚 ドキュメント
結果
MUGE Text-to-Image Retrieval
設定 |
ゼロショット (R@1) |
ゼロショット (R@5) |
ゼロショット (R@10) |
ゼロショット (MR) |
ファインチューニング (R@1) |
ファインチューニング (R@5) |
ファインチューニング (R@10) |
ファインチューニング (MR) |
Wukong |
42.7 |
69.0 |
78.0 |
63.2 |
52.7 |
77.9 |
85.6 |
72.1 |
R2D2 |
49.5 |
75.7 |
83.2 |
69.5 |
60.1 |
82.9 |
89.4 |
77.5 |
CN-CLIP |
63.0 |
84.1 |
89.2 |
78.8 |
68.9 |
88.7 |
93.1 |
83.6 |
Flickr30K-CN Retrieval
タスク |
設定 |
テキストから画像 (ゼロショット R@1) |
テキストから画像 (ゼロショット R@5) |
テキストから画像 (ゼロショット R@10) |
テキストから画像 (ファインチューニング R@1) |
テキストから画像 (ファインチューニング R@5) |
テキストから画像 (ファインチューニング R@10) |
画像からテキスト (ゼロショット R@1) |
画像からテキスト (ゼロショット R@5) |
画像からテキスト (ゼロショット R@10) |
画像からテキスト (ファインチューニング R@1) |
画像からテキスト (ファインチューニング R@5) |
画像からテキスト (ファインチューニング R@10) |
テキストと画像の検索 |
Wukong |
51.7 |
78.9 |
86.3 |
77.4 |
94.5 |
97.0 |
76.1 |
94.8 |
97.5 |
92.7 |
99.1 |
99.6 |
テキストと画像の検索 |
R2D2 |
60.9 |
86.8 |
92.7 |
84.4 |
96.7 |
98.4 |
77.6 |
96.7 |
98.9 |
95.6 |
99.8 |
100.0 |
テキストと画像の検索 |
CN-CLIP |
71.2 |
91.4 |
95.5 |
83.8 |
96.9 |
98.6 |
81.6 |
97.5 |
98.8 |
95.3 |
99.7 |
100.0 |
COCO-CN Retrieval
タスク |
設定 |
テキストから画像 (ゼロショット R@1) |
テキストから画像 (ゼロショット R@5) |
テキストから画像 (ゼロショット R@10) |
テキストから画像 (ファインチューニング R@1) |
テキストから画像 (ファインチューニング R@5) |
テキストから画像 (ファインチューニング R@10) |
画像からテキスト (ゼロショット R@1) |
画像からテキスト (ゼロショット R@5) |
画像からテキスト (ゼロショット R@10) |
画像からテキスト (ファインチューニング R@1) |
画像からテキスト (ファインチューニング R@5) |
画像からテキスト (ファインチューニング R@10) |
テキストと画像の検索 |
Wukong |
53.4 |
80.2 |
90.1 |
74.0 |
94.4 |
98.1 |
55.2 |
81.0 |
90.6 |
73.3 |
94.0 |
98.0 |
テキストと画像の検索 |
R2D2 |
56.4 |
85.0 |
93.1 |
79.1 |
96.5 |
98.9 |
63.3 |
89.3 |
95.7 |
79.3 |
97.1 |
98.7 |
テキストと画像の検索 |
CN-CLIP |
69.2 |
89.9 |
96.1 |
81.5 |
96.9 |
99.1 |
63.0 |
86.6 |
92.9 |
83.5 |
97.3 |
99.2 |
ゼロショット画像分類
タスク |
GIT |
ALIGN |
CLIP |
Wukong |
CN-CLIP |
CIFAR10 |
88.5 |
94.9 |
94.9 |
95.4 |
96.0 |
CIFAR100 |
61.1 |
76.8 |
77.0 |
77.1 |
79.7 |
DTD |
42.9 |
66.1 |
56.0 |
40.9 |
51.2 |
EuroSAT |
43.4 |
52.1 |
63.0 |
50.3 |
52.0 |
FER |
41.4 |
50.8 |
48.3 |
- |
55.1 |
FGVC |
6.7 |
25.0 |
33.3 |
- |
26.2 |
KITTI |
22.1 |
41.2 |
11.5 |
- |
49.9 |
MNIST |
68.9 |
74.0 |
79.0 |
- |
79.4 |
PC |
50.0 |
55.2 |
62.3 |
- |
63.5 |
VOC |
80.2 |
83.0 |
84.0 |
- |
84.9 |
📄 ライセンス
このセクションでは、ライセンス情報が提供されていないため、省略します。
🔧 技術詳細
このセクションでは、具体的な技術的な詳細が提供されていないため、省略します。
📄 引用
@article{chinese-clip,
title={Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese},
author={Yang, An and Pan, Junshu and Lin, Junyang and Men, Rui and Zhang, Yichang and Zhou, Jingren and Zhou, Chang},
journal={arXiv preprint arXiv:2211.01335},
year={2022}
}