clip-fa-text開源模型 - 免費部署實現波斯語文本與圖像向量關聯

首頁

Clip Fa Text

由SajjadAyoubi開發

CLIPfa是波斯語版本的CLIP模型，通過對比學習連接波斯語文本與圖像的向量表示。

文本生成圖像

Transformers

#波斯語圖文檢索 #多模態向量嵌入 #小樣本微調

下載量 16

發布時間 : 3/2/2022

模型概述

CLIPfa是基於OpenAI CLIP模型的波斯語版本，包含視覺編碼器和文本編碼器，能夠將波斯語文本與圖像進行關聯。

模型特點

波斯語支持

專門針對波斯語文本和圖像進行優化，支持波斯語文本與圖像的關聯。

雙模型架構

包含獨立的視覺編碼器和文本編碼器，分別處理圖像和文本輸入。

對比學習

通過對比學習目標匹配文本和圖像的向量表示，建立兩者關聯。

模型能力

文本-圖像匹配

圖像搜索

跨模態檢索

使用案例

圖像搜索

波斯語圖像搜索

使用波斯語文本搜索相關圖像

在2.5萬張Unsplash圖片上實現波斯語文本到圖像的檢索

跨模態應用

文本-圖像關聯

建立波斯語文本描述與圖像內容的關聯

🚀 CLIPfa：連接波斯語文本與圖像

CLIPfa是一個將波斯語文本與圖像相連接的項目。OpenAI發佈的CLIP模型可通過對比學習目標匹配文本和圖像的向量表示，從而實現文本與圖像的連接。本項目在此基礎上，訓練了OpenAI的CLIP模型的波斯語版本，為波斯語的文本 - 圖像關聯提供了支持。

🚀 快速開始

模型訓練背景

OpenAI發佈了論文《Learning Transferable Visual Models From Natural Language Supervision》，並提出了CLIP（Contrastive Language–Image Pre-training）模型。該模型由視覺編碼器和文本編碼器兩個獨立模型組成，在4億張圖像及對應字幕上進行訓練，旨在通過對比學習目標匹配文本和圖像的向量表示，以此連接文本和圖像。

本項目在40萬對（圖像，文本）數據集上訓練了OpenAI的CLIP模型的波斯語版本。使用Farahani's RoBERTa - fa作為文本編碼器，從原始CLIP中選取‍‍ViT‍作為視覺編碼器，並對它們進行微調。

需要注意的是，本次訓練僅使用了40萬對數據，而原始CLIP使用了400萬對數據。此外，訓練在592個由V100芯片驅動的GPU上進行了30天。

模型使用方法

兩個模型都會生成768維的向量。

基礎用法

from transformers import CLIPVisionModel, RobertaModel, AutoTokenizer, CLIPFeatureExtractor
# 下載預訓練模型
vision_encoder = CLIPVisionModel.from_pretrained('SajjadAyoubi/clip-fa-vision')
preprocessor = CLIPFeatureExtractor.from_pretrained('SajjadAyoubi/clip-fa-vision')
text_encoder = RobertaModel.from_pretrained('SajjadAyoubi/clip-fa-text')
tokenizer = AutoTokenizer.from_pretrained('SajjadAyoubi/clip-fa-text')
# 定義輸入圖像和輸入文本
text = 'something'
image = PIL.Image.open('my_favorite_image.jpg')
# 計算嵌入向量
text_embedding = text_encoder(**tokenizer(text,
                                          return_tensors='pt')).pooler_output
image_embedding = vision_encoder(**preprocessor(image, 
                                                return_tensors='pt')).pooler_output
text_embedding.shape == image_embedding.shape

演示示例

以下是CLIPfa在25KUnsplash images上的一些用例。

安裝

使用以下命令安裝：

pip install -q git+https://github.com/sajjjadayobi/clipfa.git

代碼示例

from clipfa import CLIPDemo
demo = CLIPDemo(vision_encoder, text_encoder, tokenizer)
demo.compute_text_embeddings(['گاو' ,'اسب' ,'ماهی'])
demo.compute_image_embeddings(test_df.image_path.to_list())