clip-fa-visionオープンソースモデル - ペルシア語テキストと画像の効率的な接続とマッチングを実現

ホーム

Clip Fa Vision

SajjadAyoubiによって開発

CLIPfaはOpenAIのCLIPモデルのペルシア語版で、対比学習によってペルシア語のテキストと画像表現を結びつけます。

テキスト生成画像

Transformers

#ペルシア語の画像とテキストのマッチング #マルチモーダルベクトル埋め込み #小規模データの微調整

ダウンロード数 43

リリース時間 : 3/2/2022

モデル概要

対比学習に基づくマルチモーダルモデルで、ペルシア語のテキストと画像を共有のベクトル空間にマッピングし、クロスモーダル検索とマッチングを実現します。

モデル特徴

ペルシア語適合

FarahaniのRoBERTa - faをテキストエンコーダとして使用し、ペルシア語のテキスト理解を特別に最適化します。

軽量トレーニング

わずか40万組のデータ（原版の1/10）で有効なトレーニングを完了します。

双モーダルアライメント

ビジョンとテキストエンコーダが768次元の共有ベクトル空間を出力します。

モデル能力

ペルシア語の画像とテキストのマッチング

クロスモーダルベクトル検索

画像の意味検索

テキストによる画像分類

使用事例

マルチメディア検索

ペルシア語の画像検索

ペルシア語で説明して関連する画像を検索します。

2.5万枚の画像コレクションで検索結果を表示します。

コンテンツ審査

多言語の違反コンテンツ識別

ペルシア語のテキスト説明を通じて違反画像を検出します。

🚀 CLIPfa: ファルシ語のテキストと画像をつなぐ

OpenAIは、論文「Learning Transferable Visual Models From Natural Language Supervision」 を公開し、その中でCLIP（Contrastive Language–Image Pre-training）モデルを紹介しました。このモデルは、対照学習の目的を用いて、テキストと画像の対応するベクトル表現をマッチングさせることで、テキストと画像を関連付けるように学習されています。CLIPは、ビジョンエンコーダとテキストエンコーダという2つの別々のモデルで構成されています。これらは、4億枚の画像と対応するキャプションで学習されました。私たちは、40万組の（画像、テキスト）ペアのデータセットで、OpenAIのCLIPのファルシ語（ペルシャ語）版を学習させました。テキストエンコーダとしてFarahaniのRoBERTa-fa を、ビジョンエンコーダとして元のCLIPの‍‍ViT‍ を使用し、これらを微調整しました。

この学習には40万組のペアのみが使用されたことに注意してください。一方、元のCLIPには400万組のペアが使用されています。また、この学習には、V100チップを搭載した592台のGPUで30日間かかりました。

🚀 クイックスタート

✨ 主な機能

CLIPfaは、ファルシ語のテキストと画像を関連付けることができるモデルです。元のCLIPモデルをベースに、ファルシ語のデータセットで微調整されています。

📦 インストール

以下のコマンドを使用して、必要なライブラリをインストールできます。

pip install -q git+https://github.com/sajjjadayobi/clipfa.git

💻 使用例

基本的な使用法

両方のモデルは768次元のベクトルを生成します。

from transformers import CLIPVisionModel, RobertaModel, AutoTokenizer, CLIPFeatureExtractor
# download pre-trained models
vision_encoder = CLIPVisionModel.from_pretrained('SajjadAyoubi/clip-fa-vision')
preprocessor = CLIPFeatureExtractor.from_pretrained('SajjadAyoubi/clip-fa-vision')
text_encoder = RobertaModel.from_pretrained('SajjadAyoubi/clip-fa-text')
tokenizer = AutoTokenizer.from_pretrained('SajjadAyoubi/clip-fa-text')
# define input image and input text
text = 'something'
image = PIL.Image.open('my_favorite_image.jpg')
# compute embeddings
text_embedding = text_encoder(**tokenizer(text,
                                          return_tensors='pt')).pooler_output
image_embedding = vision_encoder(**preprocessor(image, 
                                                return_tensors='pt')).pooler_output
text_embedding.shape == image_embedding.shape

デモ

以下は、25,000枚のUnsplash画像 でのCLIPfaの使用例です。

from clipfa import CLIPDemo
demo = CLIPDemo(vision_encoder, text_encoder, tokenizer)
demo.compute_text_embeddings(['گاو' ,'اسب' ,'ماهی'])
demo.compute_image_embeddings(test_df.image_path.to_list())