Chinese-clip-vit-large-patch14オープンソースモデル - 中国語のビジュアル言語タスクアプリケーションをサポート

ホーム

Chinese Clip Vit Large Patch14

OFA-Sysによって開発

中国語CLIPモデル、VITアーキテクチャベース、中国語視覚言語タスクをサポート

画像分類

Transformers

#中国語マルチモーダル理解 #ゼロショット画像分類 #視覚-テキストアライメント

ダウンロード数 2,333

リリース時間 : 11/9/2022

モデル概要

これはVision Transformerアーキテクチャに基づく中国語CLIPモデルで、画像とテキストの共同表現学習を処理でき、クロスモーダル検索と分類タスクに適しています。

モデル特徴

中国語クロスモーダル理解

中国語シーンに特化して最適化された視覚言語共同表現モデル

効率的な視覚エンコーディング

ViTアーキテクチャに基づき、画像入力を効率的に処理可能

ゼロショット分類能力

テキスト記述に基づくゼロショット画像分類をサポート

モデル能力

画像テキストマッチング

クロスモーダル検索

ゼロショット画像分類

中国語視覚言語理解

使用事例

コンテンツ審査

違反コンテンツ検出

テキスト記述を通じて違反画像コンテンツを検出

特定タイプの違反コンテンツを識別可能

電子商取引

商品検索

テキスト記述を通じて関連商品画像を検索

商品検索精度向上

ソーシャルメディア

コンテンツ推薦

ユーザー興味に基づき関連画像テキストコンテンツを推薦

ユーザーエンゲージメント向上

🚀 Chinese-CLIP-ViT-Large-Patch14

このモデルは、中国語版CLIPの大規模バージョンです。画像エンコーダにViT-L/14、テキストエンコーダにRoBERTa-wwm-baseを使用しています。Chinese CLIPは、約2億の中国語の画像-テキストペアの大規模データセットでCLIPを実装したものです。詳細については、技術レポートhttps://arxiv.org/abs/2211.01335 と公式GitHubリポジトリhttps://github.com/OFA-Sys/Chinese-CLIP を参照してください。(スターをつけることをおすすめします🔥🔥)

🚀 クイックスタート

✨ 主な機能

このモデルは、中国語の画像とテキストの埋め込みを計算し、それらの類似度を求めることができます。大規模な中国語の画像-テキストデータセットで学習されており、高い性能を発揮します。

📦 インストール

このセクションでは、具体的なインストール手順が提供されていないため、省略します。

💻 使用例

基本的な使用法

from PIL import Image
import requests
from transformers import ChineseCLIPProcessor, ChineseCLIPModel

model = ChineseCLIPModel.from_pretrained("OFA-Sys/chinese-clip-vit-large-patch14")
processor = ChineseCLIPProcessor.from_pretrained("OFA-Sys/chinese-clip-vit-large-patch14")

url = "https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg"
image = Image.open(requests.get(url, stream=True).raw)
# Squirtle, Bulbasaur, Charmander, Pikachu in English
texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]

# compute image feature
inputs = processor(images=image, return_tensors="pt")
image_features = model.get_image_features(**inputs)
image_features = image_features / image_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute text features
inputs = processor(text=texts, padding=True, return_tensors="pt")
text_features = model.get_text_features(**inputs)
text_features = text_features / text_features.norm(p=2, dim=-1, keepdim=True)  # normalize

# compute image-text similarity scores
inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1)  # probs: [[0.0066, 0.0211, 0.0031, 0.9692]]

📚 ドキュメント

結果

MUGE Text-to-Image Retrieval

設定	ゼロショット (R@1)	ゼロショット (R@5)	ゼロショット (R@10)	ゼロショット (MR)	ファインチューニング (R@1)	ファインチューニング (R@5)	ファインチューニング (R@10)	ファインチューニング (MR)
Wukong	42.7	69.0	78.0	63.2	52.7	77.9	85.6	72.1
R2D2	49.5	75.7	83.2	69.5	60.1	82.9	89.4	77.5
CN-CLIP	63.0	84.1	89.2	78.8	68.9	88.7	93.1	83.6

Flickr30K-CN Retrieval

タスク	設定	テキストから画像 (ゼロショット R@1)	テキストから画像 (ゼロショット R@5)	テキストから画像 (ゼロショット R@10)	テキストから画像 (ファインチューニング R@1)	テキストから画像 (ファインチューニング R@5)	テキストから画像 (ファインチューニング R@10)	画像からテキスト (ゼロショット R@1)	画像からテキスト (ゼロショット R@5)	画像からテキスト (ゼロショット R@10)	画像からテキスト (ファインチューニング R@1)	画像からテキスト (ファインチューニング R@5)	画像からテキスト (ファインチューニング R@10)
テキストと画像の検索	Wukong	51.7	78.9	86.3	77.4	94.5	97.0	76.1	94.8	97.5	92.7	99.1	99.6
テキストと画像の検索	R2D2	60.9	86.8	92.7	84.4	96.7	98.4	77.6	96.7	98.9	95.6	99.8	100.0
テキストと画像の検索	CN-CLIP	71.2	91.4	95.5	83.8	96.9	98.6	81.6	97.5	98.8	95.3	99.7	100.0

COCO-CN Retrieval

タスク	設定	テキストから画像 (ゼロショット R@1)	テキストから画像 (ゼロショット R@5)	テキストから画像 (ゼロショット R@10)	テキストから画像 (ファインチューニング R@1)	テキストから画像 (ファインチューニング R@5)	テキストから画像 (ファインチューニング R@10)	画像からテキスト (ゼロショット R@1)	画像からテキスト (ゼロショット R@5)	画像からテキスト (ゼロショット R@10)	画像からテキスト (ファインチューニング R@1)	画像からテキスト (ファインチューニング R@5)	画像からテキスト (ファインチューニング R@10)
テキストと画像の検索	Wukong	53.4	80.2	90.1	74.0	94.4	98.1	55.2	81.0	90.6	73.3	94.0	98.0
テキストと画像の検索	R2D2	56.4	85.0	93.1	79.1	96.5	98.9	63.3	89.3	95.7	79.3	97.1	98.7
テキストと画像の検索	CN-CLIP	69.2	89.9	96.1	81.5	96.9	99.1	63.0	86.6	92.9	83.5	97.3	99.2

ゼロショット画像分類

タスク	GIT	ALIGN	CLIP	Wukong	CN-CLIP
CIFAR10	88.5	94.9	94.9	95.4	96.0
CIFAR100	61.1	76.8	77.0	77.1	79.7
DTD	42.9	66.1	56.0	40.9	51.2
EuroSAT	43.4	52.1	63.0	50.3	52.0
FER	41.4	50.8	48.3	-	55.1
FGVC	6.7	25.0	33.3	-	26.2
KITTI	22.1	41.2	11.5	-	49.9
MNIST	68.9	74.0	79.0	-	79.4
PC	50.0	55.2	62.3	-	63.5
VOC	80.2	83.0	84.0	-	84.9

📄 ライセンス

このセクションでは、ライセンス情報が提供されていないため、省略します。

🔧 技術詳細

このセクションでは、具体的な技術的な詳細が提供されていないため、省略します。

📄 引用

@article{chinese-clip,
  title={Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese},
  author={Yang, An and Pan, Junshu and Lin, Junyang and Men, Rui and Zhang, Yichang and Zhou, Jingren and Zhou, Chang},
  journal={arXiv preprint arXiv:2211.01335},
  year={2022}
}