Arabic-clip-vit-base-patch32开源模型 - 实现阿拉伯语文本与图像概念关联

首页

Arabic Clip Vit Base Patch32

由 LinaAlhuri 开发

阿拉伯语CLIP是对比语言-图像预训练(CLIP)模型针对阿拉伯语的适配版本，能够从图像中学习概念并将其与阿拉伯语文本描述相关联。

文本生成图像阿拉伯语#阿拉伯语图文理解 #零样本学习 #多模态检索

下载量 33

发布时间 : 3/31/2023

模型简介

该模型是基于OpenAI CLIP架构的阿拉伯语适配版本，专注于提升阿拉伯语语境下的视觉信息理解和解释能力。

模型特点

阿拉伯语适配

专门针对阿拉伯语进行优化，解决阿拉伯语数据稀缺和翻译质量问题

多数据集训练

整合了超过200万张阿拉伯语图文数据，包括真实数据集和翻译数据集

零样本学习能力

支持零样本学习，在多个阿拉伯语基准测试中表现优异

模型能力

图像理解

阿拉伯语文本-图像关联

零样本图像分类

图像检索

跨模态搜索

使用案例

图像检索

阿拉伯语概念图像检索

根据阿拉伯语描述检索相关图像

MRR@10达到0.244

零样本学习

阿拉伯语图像分类

无需训练直接对图像进行分类

Top-1准确率17.58%

🚀 阿拉伯语CLIP模型

阿拉伯语CLIP模型是对对比语言 - 图像预训练（CLIP）模型的阿拉伯语适配。CLIP是OpenAI开发的模型，它能从图像中学习概念，并将其与文本描述关联起来。本项目旨在提升模型在阿拉伯语语境下对视觉信息的理解和解读能力。

🚀 快速开始

模型使用示例

from transformers import AutoTokenizer, FlaxVisionTextDualEncoderModel
model = FlaxVisionTextDualEncoderModel.from_pretrained("LinaAlhuri/Arabic-clip-vit-base-patch32", logit_scale_init_value=1,from_pt=True)
model.save_pretrained("arabic_clip") 

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic", cache_dir=None, use_fast=True)

✨ 主要特性

阿拉伯语CLIP模型通过适配CLIP模型，使其能够处理阿拉伯语相关的图像 - 文本任务，增强了模型在阿拉伯语环境下的应用能力。

📦 安装指南

文档中未明确提及安装指南，若需使用该模型，可参考上述代码示例中的依赖库安装。

💻 使用示例

基础用法

from transformers import AutoTokenizer, FlaxVisionTextDualEncoderModel
model = FlaxVisionTextDualEncoderModel.from_pretrained("LinaAlhuri/Arabic-clip-vit-base-patch32", logit_scale_init_value=1,from_pt=True)
model.save_pretrained("arabic_clip") 

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic", cache_dir=None, use_fast=True)

📚 详细文档

数据情况

由于阿拉伯语资源稀缺，本项目旨在通过整合各种数据源，创建一个全面的阿拉伯语图像 - 文本数据集。面临的挑战包括阿拉伯语数据有限以及翻译数据集的质量问题。具体做法是将真实数据集合并以获取丰富信息，并使用翻译数据集覆盖不同领域、场景和对象，平衡两者的优缺点。

数据集名称	图像数量
阿拉伯语概念性描述	1,427,210
阿拉伯语COCO 2014	414,113
阿拉伯语WIT	109,366
阿拉伯语Flicker8K	24,272
提议的（WAP）数据集	151,252
总计	2,126,213