chinese-clip-vit-huge-patch14オープンソースマルチモーダルモデル - 中国語の視覚言語タスクアプリケーションをサポート

ホーム

Chinese Clip Vit Huge Patch14

OFA-Sysによって開発

Chinese CLIPはVision Transformerアーキテクチャに基づくマルチモーダルモデルで、中国語の視覚-言語タスクをサポートします。

画像分類

Transformers

#マルチモーダル理解 #ゼロショット分類 #中国語視覚認識

ダウンロード数 623

リリース時間 : 11/9/2022

モデル概要

このモデルは視覚と言語処理能力を組み合わせ、中国語テキストと画像の関連性を理解でき、クロスモーダル検索や分類タスクに適しています。

モデル特徴

中国語マルチモーダル理解

中国語シナリオに特化して最適化され、画像と中国語テキスト入力を同時に処理可能

視覚Transformerアーキテクチャ

ViT-Base構造を採用、16x16画像ブロック処理で性能と効率のバランスを実現

ゼロショット分類能力

微調整なしでテキストプロンプトによる画像分類タスクを実行可能

モデル能力

画像-テキストマッチング

クロスモーダル検索

ゼロショット画像分類

中国語シナリオ理解

使用事例

コンテンツ審査

違反コンテンツ検出

テキスト記述による違反画像コンテンツの検出

特定シナリオにおけるセンシティブコンテンツを識別可能

電子商取引

商品検索

自然言語記述によるマッチング商品画像の検索

検索精度とユーザー体験の向上

🚀 Chinese-CLIP-ViT-Huge-Patch14

このプロジェクトは、大規模な中国語の画像とテキストのペアデータセットを用いて、CLIPを実装したChinese CLIPの巨大版です。画像エンコーダにはViT-H/14、テキストエンコーダにはRoBERTa-wwm-largeを使用しています。

🚀 クイックスタート

このモデルは、大規模な中国語の画像とテキストのペアデータセットを用いて学習されたChinese CLIPの巨大版です。詳細については、技術レポート https://arxiv.org/abs/2211.01335 と公式のGitHubリポジトリ https://github.com/OFA-Sys/Chinese-CLIP を参照してください。

✨ 主な機能

画像とテキストの埋め込みと類似度の計算が可能です。
大規模な中国語の画像とテキストのペアデータセットを用いて学習されています。

💻 使用例

基本的な使用法

from PIL import Image
import requests
from transformers import ChineseCLIPProcessor, ChineseCLIPModel

model = ChineseCLIPModel.from_pretrained("OFA-Sys/chinese-clip-vit-huge-patch14")
processor = ChineseCLIPProcessor.from_pretrained("OFA-Sys/chinese-clip-vit-huge-patch14")

url = "https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
# Squirtle, Bulbasaur, Charmander, Pikachu in English
texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]

# compute image feature
inputs = processor(images=image, return_tensors="pt")
image_features = model.get_image_features(**inputs)
image_features = image_features / image_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute text features
inputs = processor(text=texts, padding=True, return_tensors="pt")
text_features = model.get_text_features(**inputs)
text_features = text_features / text_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute image-text similarity scores
inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1)  # probs: [[1.1419e-02, 1.0478e-02, 5.2018e-04, 9.7758e-01]]

📚 ドキュメント

結果

MUGEテキストから画像への検索

Setup	Zero-shot R@1	Zero-shot R@5	Zero-shot R@10	Zero-shot MR	Finetune R@1	Finetune R@5	Finetune R@10	Finetune MR
Wukong	42.7	69.0	78.0	63.2	52.7	77.9	85.6	72.1
R2D2	49.5	75.7	83.2	69.5	60.1	82.9	89.4	77.5
CN-CLIP	63.0	84.1	89.2	78.8	68.9	88.7	93.1	83.6

Flickr30K-CN検索

Task	Setup	Zero-shot R@1	Zero-shot R@5	Zero-shot R@10	Finetune R@1	Finetune R@5	Finetune R@10
テキストから画像へ	Wukong	51.7	78.9	86.3	77.4	94.5	97.0
テキストから画像へ	R2D2	60.9	86.8	92.7	84.4	96.7	98.4
テキストから画像へ	CN-CLIP	71.2	91.4	95.5	83.8	96.9	98.6
画像からテキストへ	Wukong	76.1	94.8	97.5	92.7	99.1	99.6
画像からテキストへ	R2D2	77.6	96.7	98.9	95.6	99.8	100.0
画像からテキストへ	CN-CLIP	81.6	97.5	98.8	95.3	99.7	100.0

COCO-CN検索

Task	Setup	Zero-shot R@1	Zero-shot R@5	Zero-shot R@10	Finetune R@1	Finetune R@5	Finetune R@10
テキストから画像へ	Wukong	53.4	80.2	90.1	74.0	94.4	98.1
テキストから画像へ	R2D2	56.4	85.0	93.1	79.1	96.5	98.9
テキストから画像へ	CN-CLIP	69.2	89.9	96.1	81.5	96.9	99.1
画像からテキストへ	Wukong	55.2	81.0	90.6	73.3	94.0	98.0
画像からテキストへ	R2D2	63.3	89.3	95.7	79.3	97.1	98.7
画像からテキストへ	CN-CLIP	63.0	86.6	92.9	83.5	97.3	99.2

ゼロショット画像分類

Task	GIT	ALIGN	CLIP	Wukong	CN-CLIP
CIFAR10	88.5	94.9	94.9	95.4	96.0
CIFAR100	61.1	76.8	77.0	77.1	79.7
DTD	42.9	66.1	56.0	40.9	51.2
EuroSAT	43.4	52.1	63.0	50.3	52.0
FER	41.4	50.8	48.3	-	55.1
FGVC	6.7	25.0	33.3	-	26.2
KITTI	22.1	41.2	11.5	-	49.9
MNIST	68.9	74.0	79.0	-	79.4
PC	50.0	55.2	62.3	-	63.5
VOC	80.2	83.0	84.0	-	84.9

📄 ライセンス

引用

もしChinese CLIPが役に立った場合は、以下の論文を引用してください。ご支援いただきありがとうございます！

@article{chinese-clip,
  title={Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese},
  author={Yang, An and Pan, Junshu and Lin, Junyang and Men, Rui and Zhang, Yichang and Zhou, Jingren and Zhou, Chang},
  journal={arXiv preprint arXiv:2211.01335},
  year={2022}
}