clip-ViT-B-32-multilingual-v1-ONNXオープンソースモデル - 50種類以上の言語のテキストと画像を同じ空間に埋め込むことをサポート

ホーム

Clip ViT B 32 Multilingual V1 ONNX

canavarによって開発

OpenAI CLIP-ViT-B32モデルの多言語ONNXバージョン、50+言語のテキストと画像を同一ベクトル空間に埋め込むことをサポート

テキスト生成画像

Transformers

その他オープンソースライセンス:Apache-2.0 #多言語画像検索 #ゼロショット画像分類 #クロスモーダルベクトル空間

ダウンロード数 86

リリース時間 : 11/22/2023

モデル概要

このモデルはテキスト（50以上の言語をサポート）と画像を共通の密ベクトル空間にマッピングし、クロスモーダル類似度計算を実現、画像検索や多言語ゼロショット画像分類タスクに適しています。

モデル特徴

多言語アラインメント

知識蒸留により50+言語のテキスト埋め込みとCLIP画像埋め込みを同一ベクトル空間にアラインメント

クロスモーダル検索

テキストから画像、画像からテキストへの双方向類似度計算をサポート

ゼロショット分類

テキストラベルで直接分類カテゴリを定義し、微調整なしで画像分類が可能

ONNXフォーマット

モデルはONNXフォーマットに変換済み、クロスプラットフォーム展開が容易

モデル能力

多言語テキスト埋め込み

画像特徴抽出

クロスモーダル類似度計算

ゼロショット画像分類

多言語画像検索

使用事例

画像検索

多言語画像検索

サポートされている任意の言語のテキストクエリを使用して関連画像を検索

異なる言語で記述された画像を正しくマッチングできる例を示す

インテリジェント分類

ゼロショット画像分類

テキストラベルで直接分類カテゴリを定義、トレーニングデータ不要

動的に分類カテゴリを追加/変更可能

🚀 sentence-transformers/clip-ViT-B-32-multilingual-v1-onnx

これは、OpenAIのCLIP-ViT-B32モデルをONNX形式に変換した多言語版です。50以上の言語のテキストと画像を共通の密ベクトル空間にマッピングでき、画像と一致するテキストが近くなるようになっています。このモデルは、画像検索（ユーザーが大量の画像コレクションを検索する）や多言語ゼロショット画像分類（画像ラベルをテキストとして定義する）に使用できます。

🚀 クイックスタート

✨ 主な機能

このモデルは、OpenAIのCLIP-ViT-B32モデルをONNX形式に変換した多言語版です。50以上の言語のテキストと画像を共通の密ベクトル空間にマッピングでき、画像と一致するテキストが近くなるようになっています。

📦 インストール

sentence-transformersをインストールすると、このモデルの使用が簡単になります。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer, util
from PIL import Image, ImageFile
import requests
import torch

# We use the original clip-ViT-B-32 for encoding images
img_model = SentenceTransformer('clip-ViT-B-32')

# Our text embedding model is aligned to the img_model and maps 50+
# languages to the same vector space
text_model = SentenceTransformer('sentence-transformers/clip-ViT-B-32-multilingual-v1')


# Now we load and encode the images
def load_image(url_or_path):
    if url_or_path.startswith("http://") or url_or_path.startswith("https://"):
        return Image.open(requests.get(url_or_path, stream=True).raw)
    else:
        return Image.open(url_or_path)

# We load 3 images. You can either pass URLs or
# a path on your disc
img_paths = [
    # Dog image
    "https://unsplash.com/photos/QtxgNsmJQSs/download?ixid=MnwxMjA3fDB8MXxhbGx8fHx8fHx8fHwxNjM1ODQ0MjY3&w=640",

    # Cat image
    "https://unsplash.com/photos/9UUoGaaHtNE/download?ixid=MnwxMjA3fDB8MXxzZWFyY2h8Mnx8Y2F0fHwwfHx8fDE2MzU4NDI1ODQ&w=640",

    # Beach image
    "https://unsplash.com/photos/Siuwr3uCir0/download?ixid=MnwxMjA3fDB8MXxzZWFyY2h8NHx8YmVhY2h8fDB8fHx8MTYzNTg0MjYzMg&w=640"
]

images = [load_image(img) for img in img_paths]

# Map images to the vector space
img_embeddings = img_model.encode(images)

# Now we encode our text:
texts = [
    "A dog in the snow",
    "Eine Katze",  # German: A cat
    "Una playa con palmeras."  # Spanish: a beach with palm trees
]

text_embeddings = text_model.encode(texts)

# Compute cosine similarities:
cos_sim = util.cos_sim(text_embeddings, img_embeddings)

for text, scores in zip(texts, cos_sim):
    max_img_idx = torch.argmax(scores)
    print("Text:", text)
    print("Score:", scores[max_img_idx] )
    print("Path:", img_paths[max_img_idx], "\n")

📚 ドキュメント

多言語画像検索デモ

多言語画像検索のデモについては、Image_Search-multilingual.ipynb（Colab版）を参照してください。

画像検索とゼロショット画像分類の詳細については、SBERT.netのドキュメントを参照してください。

🔧 技術詳細

このモデルは、Multilingual Knowledge Distillationを使用して作成されました。教師モデルとして、元のclip-ViT-B-32を使用し、学生モデルとしてmultilingual DistilBERTモデルを学習させました。並列データを使用して、多言語学生モデルは、多くの言語にわたって教師のベクトル空間を整列させるように学習します。その結果、50以上の言語で動作するテキスト埋め込みモデルが得られます。

CLIPの画像エンコーダは変更されていません。つまり、元のCLIP画像エンコーダを使用して画像をエンコードできます。

詳細と学習コードについては、SBERT.net - Multilingual-Modelsドキュメントを参照してください。

ベクトル空間を整列させるために、以下の50以上の言語を使用しました。ar, bg, ca, cs, da, de, el, es, et, fa, fi, fr, fr-ca, gl, gu, he, hi, hr, hu, hy, id, it, ja, ka, ko, ku, lt, lv, mk, mn, mr, ms, my, nb, nl, pl, pt, pt, pt-br, ro, ru, sk, sl, sq, sr, sv, th, tr, uk, ur, vi, zh-cn, zh-tw。

元の多言語DistilBERTは100以上の言語をサポートしています。このモデルもこれらの言語で動作しますが、最適な結果が得られない場合があります。

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: DistilBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Dense({'in_features': 768, 'out_features': 512, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
)

📄 ライセンス

このモデルのライセンスは、apache-2.0です。

引用と作者

このモデルは、sentence-transformersによって学習されました。

このモデルが役立つと思われる場合は、以下の論文を引用してください。Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "http://arxiv.org/abs/1908.10084",
}