clip-fa-vision开源模型 - 实现波斯语文本与图像高效连接匹配

首页

Clip Fa Vision

由 SajjadAyoubi 开发

CLIPfa是OpenAI CLIP模型的波斯语版本，通过对比学习连接波斯语文本与图像表示

文本生成图像

Transformers

#波斯语图文匹配 #多模态向量嵌入 #小规模数据微调

下载量 43

发布时间 : 3/2/2022

模型简介

基于对比学习的多模态模型，可将波斯语文本与图像映射到共享的向量空间，实现跨模态检索与匹配

模型特点

波斯语适配

使用Farahani的RoBERTa-fa作为文本编码器，专门优化波斯语文本理解

轻量级训练

仅用40万组数据（原版1/10）完成有效训练

双模态对齐

视觉与文本编码器输出768维共享向量空间

模型能力

波斯语图文匹配

跨模态向量检索

图像语义搜索

文本引导图像分类

使用案例

多媒体检索

波斯语图像搜索

用波斯语描述搜索相关图像

在2.5万图库中展示检索效果

内容审核

多语言违规内容识别

通过波斯语文本描述检测违规图像

🚀 CLIPfa：连接波斯语文本与图像

CLIPfa是一个将波斯语文本与图像相连接的项目。OpenAI发布的CLIP（对比语言 - 图像预训练）模型能够通过对比学习目标匹配文本和图像的向量表示，从而建立两者之间的联系。本项目在此基础上，训练了一个波斯语版本的CLIP模型，为波斯语的文本 - 图像关联任务提供支持。

🚀 快速开始

OpenAI发布了《Learning Transferable Visual Models From Natural Language Supervision》论文，其中介绍了CLIP（对比语言 - 图像预训练）模型。该模型通过对比学习目标，匹配文本和图像对应的向量表示，从而实现文本与图像的连接。CLIP由两个独立的模型组成，即视觉编码器和文本编码器，它们在4亿张图像及其对应的描述上进行了训练。

我们在包含40万对（图像，文本）的数据集上训练了OpenAI的CLIP模型的波斯语（法尔西语）版本。我们使用[Farahani的RoBERTa - fa](https://huggingface.co/m3hrdadfi/roberta - zwnj - wnli - mean - tokens)作为文本编码器，并从原始CLIP中选取[‍‍ViT‍](https://huggingface.co/openai/clip - vit - base - patch32)作为视觉编码器，然后对它们进行微调。

需要注意的是，本次训练仅使用了40万对数据，而原始CLIP使用了400万对数据。此外，训练在592个由V100芯片驱动的GPU上进行了30天。

✨ 主要特性

基于OpenAI的CLIP模型，训练出适用于波斯语的文本 - 图像关联模型。
可生成768维的向量，用于文本和图像的特征表示。

💻 使用示例

基础用法

from transformers import CLIPVisionModel, RobertaModel, AutoTokenizer, CLIPFeatureExtractor
# download pre-trained models
vision_encoder = CLIPVisionModel.from_pretrained('SajjadAyoubi/clip-fa-vision')
preprocessor = CLIPFeatureExtractor.from_pretrained('SajjadAyoubi/clip-fa-vision')
text_encoder = RobertaModel.from_pretrained('SajjadAyoubi/clip-fa-text')
tokenizer = AutoTokenizer.from_pretrained('SajjadAyoubi/clip-fa-text')
# define input image and input text
text = 'something'
image = PIL.Image.open('my_favorite_image.jpg')
# compute embeddings
text_embedding = text_encoder(**tokenizer(text,
                                          return_tensors='pt')).pooler_output
image_embedding = vision_encoder(**preprocessor(image, 
                                                return_tensors='pt')).pooler_output
text_embedding.shape == image_embedding.shape

高级用法

以下是在25KUnsplash图像上的使用示例：

# 安装依赖
pip install -q git+https://github.com/sajjjadayobi/clipfa.git
from clipfa import CLIPDemo
demo = CLIPDemo(vision_encoder, text_encoder, tokenizer)
demo.compute_text_embeddings(['گاو' ,'اسب' ,'ماهی'])
demo.compute_image_embeddings(test_df.image_path.to_list())