clip-fa-vision開源模型 - 實現波斯語文本與圖像高效連接匹配

首頁

Clip Fa Vision

由SajjadAyoubi開發

CLIPfa是OpenAI CLIP模型的波斯語版本，通過對比學習連接波斯語文本與圖像表示

文本生成圖像

Transformers

#波斯語圖文匹配 #多模態向量嵌入 #小規模數據微調

下載量 43

發布時間 : 3/2/2022

模型概述

基於對比學習的多模態模型，可將波斯語文本與圖像映射到共享的向量空間，實現跨模態檢索與匹配

模型特點

波斯語適配

使用Farahani的RoBERTa-fa作為文本編碼器，專門優化波斯語文本理解

輕量級訓練

僅用40萬組數據（原版1/10）完成有效訓練

雙模態對齊

視覺與文本編碼器輸出768維共享向量空間

模型能力

波斯語圖文匹配

跨模態向量檢索

圖像語義搜索

文本引導圖像分類

使用案例

多媒體檢索

波斯語圖像搜索

用波斯語描述搜索相關圖像

在2.5萬圖庫中展示檢索效果

內容審核

多語言違規內容識別

通過波斯語文本描述檢測違規圖像

🚀 CLIPfa：連接波斯語文本與圖像

CLIPfa是一個將波斯語文本與圖像相連接的項目。OpenAI發佈的CLIP（對比語言 - 圖像預訓練）模型能夠通過對比學習目標匹配文本和圖像的向量表示，從而建立兩者之間的聯繫。本項目在此基礎上，訓練了一個波斯語版本的CLIP模型，為波斯語的文本 - 圖像關聯任務提供支持。

🚀 快速開始

OpenAI發佈了《Learning Transferable Visual Models From Natural Language Supervision》論文，其中介紹了CLIP（對比語言 - 圖像預訓練）模型。該模型通過對比學習目標，匹配文本和圖像對應的向量表示，從而實現文本與圖像的連接。CLIP由兩個獨立的模型組成，即視覺編碼器和文本編碼器，它們在4億張圖像及其對應的描述上進行了訓練。

我們在包含40萬對（圖像，文本）的數據集上訓練了OpenAI的CLIP模型的波斯語（法爾西語）版本。我們使用[Farahani的RoBERTa - fa](https://huggingface.co/m3hrdadfi/roberta - zwnj - wnli - mean - tokens)作為文本編碼器，並從原始CLIP中選取[‍‍ViT‍](https://huggingface.co/openai/clip - vit - base - patch32)作為視覺編碼器，然後對它們進行微調。

需要注意的是，本次訓練僅使用了40萬對數據，而原始CLIP使用了400萬對數據。此外，訓練在592個由V100芯片驅動的GPU上進行了30天。

✨ 主要特性

基於OpenAI的CLIP模型，訓練出適用於波斯語的文本 - 圖像關聯模型。
可生成768維的向量，用於文本和圖像的特徵表示。

💻 使用示例

基礎用法

from transformers import CLIPVisionModel, RobertaModel, AutoTokenizer, CLIPFeatureExtractor
# download pre-trained models
vision_encoder = CLIPVisionModel.from_pretrained('SajjadAyoubi/clip-fa-vision')
preprocessor = CLIPFeatureExtractor.from_pretrained('SajjadAyoubi/clip-fa-vision')
text_encoder = RobertaModel.from_pretrained('SajjadAyoubi/clip-fa-text')
tokenizer = AutoTokenizer.from_pretrained('SajjadAyoubi/clip-fa-text')
# define input image and input text
text = 'something'
image = PIL.Image.open('my_favorite_image.jpg')
# compute embeddings
text_embedding = text_encoder(**tokenizer(text,
                                          return_tensors='pt')).pooler_output
image_embedding = vision_encoder(**preprocessor(image, 
                                                return_tensors='pt')).pooler_output
text_embedding.shape == image_embedding.shape

高級用法

以下是在25KUnsplash圖像上的使用示例：

# 安裝依賴
pip install -q git+https://github.com/sajjjadayobi/clipfa.git
from clipfa import CLIPDemo
demo = CLIPDemo(vision_encoder, text_encoder, tokenizer)
demo.compute_text_embeddings(['گاو' ,'اسب' ,'ماهی'])
demo.compute_image_embeddings(test_df.image_path.to_list())