clip-fa-text开源模型 - 免费部署实现波斯语文本与图像向量关联

首页

Clip Fa Text

由 SajjadAyoubi 开发

CLIPfa是波斯语版本的CLIP模型，通过对比学习连接波斯语文本与图像的向量表示。

文本生成图像

Transformers

#波斯语图文检索 #多模态向量嵌入 #小样本微调

下载量 16

发布时间 : 3/2/2022

模型简介

CLIPfa是基于OpenAI CLIP模型的波斯语版本，包含视觉编码器和文本编码器，能够将波斯语文本与图像进行关联。

模型特点

波斯语支持

专门针对波斯语文本和图像进行优化，支持波斯语文本与图像的关联。

双模型架构

包含独立的视觉编码器和文本编码器，分别处理图像和文本输入。

对比学习

通过对比学习目标匹配文本和图像的向量表示，建立两者关联。

模型能力

文本-图像匹配

图像搜索

跨模态检索

使用案例

图像搜索

波斯语图像搜索

使用波斯语文本搜索相关图像

在2.5万张Unsplash图片上实现波斯语文本到图像的检索

跨模态应用

文本-图像关联

建立波斯语文本描述与图像内容的关联

🚀 CLIPfa：连接波斯语文本与图像

CLIPfa是一个将波斯语文本与图像相连接的项目。OpenAI发布的CLIP模型可通过对比学习目标匹配文本和图像的向量表示，从而实现文本与图像的连接。本项目在此基础上，训练了OpenAI的CLIP模型的波斯语版本，为波斯语的文本 - 图像关联提供了支持。

🚀 快速开始

模型训练背景

OpenAI发布了论文《Learning Transferable Visual Models From Natural Language Supervision》，并提出了CLIP（Contrastive Language–Image Pre-training）模型。该模型由视觉编码器和文本编码器两个独立模型组成，在4亿张图像及对应字幕上进行训练，旨在通过对比学习目标匹配文本和图像的向量表示，以此连接文本和图像。

本项目在40万对（图像，文本）数据集上训练了OpenAI的CLIP模型的波斯语版本。使用Farahani's RoBERTa - fa作为文本编码器，从原始CLIP中选取‍‍ViT‍作为视觉编码器，并对它们进行微调。

需要注意的是，本次训练仅使用了40万对数据，而原始CLIP使用了400万对数据。此外，训练在592个由V100芯片驱动的GPU上进行了30天。

模型使用方法

两个模型都会生成768维的向量。

基础用法

from transformers import CLIPVisionModel, RobertaModel, AutoTokenizer, CLIPFeatureExtractor
# 下载预训练模型
vision_encoder = CLIPVisionModel.from_pretrained('SajjadAyoubi/clip-fa-vision')
preprocessor = CLIPFeatureExtractor.from_pretrained('SajjadAyoubi/clip-fa-vision')
text_encoder = RobertaModel.from_pretrained('SajjadAyoubi/clip-fa-text')
tokenizer = AutoTokenizer.from_pretrained('SajjadAyoubi/clip-fa-text')
# 定义输入图像和输入文本
text = 'something'
image = PIL.Image.open('my_favorite_image.jpg')
# 计算嵌入向量
text_embedding = text_encoder(**tokenizer(text,
                                          return_tensors='pt')).pooler_output
image_embedding = vision_encoder(**preprocessor(image, 
                                                return_tensors='pt')).pooler_output
text_embedding.shape == image_embedding.shape

演示示例

以下是CLIPfa在25KUnsplash images上的一些用例。

安装

使用以下命令安装：

pip install -q git+https://github.com/sajjjadayobi/clipfa.git

代码示例

from clipfa import CLIPDemo
demo = CLIPDemo(vision_encoder, text_encoder, tokenizer)
demo.compute_text_embeddings(['گاو' ,'اسب' ,'ماهی'])
demo.compute_image_embeddings(test_df.image_path.to_list())