🚀 阿拉伯语CLIP模型
阿拉伯语CLIP模型是对对比语言 - 图像预训练(CLIP)模型的阿拉伯语适配。CLIP是OpenAI开发的模型,它能从图像中学习概念,并将其与文本描述关联起来。本项目旨在提升模型在阿拉伯语语境下对视觉信息的理解和解读能力。
🚀 快速开始
模型使用示例
from transformers import AutoTokenizer, FlaxVisionTextDualEncoderModel
model = FlaxVisionTextDualEncoderModel.from_pretrained("LinaAlhuri/Arabic-clip-vit-base-patch32", logit_scale_init_value=1,from_pt=True)
model.save_pretrained("arabic_clip")
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic", cache_dir=None, use_fast=True)
✨ 主要特性
阿拉伯语CLIP模型通过适配CLIP模型,使其能够处理阿拉伯语相关的图像 - 文本任务,增强了模型在阿拉伯语环境下的应用能力。
📦 安装指南
文档中未明确提及安装指南,若需使用该模型,可参考上述代码示例中的依赖库安装。
💻 使用示例
基础用法
from transformers import AutoTokenizer, FlaxVisionTextDualEncoderModel
model = FlaxVisionTextDualEncoderModel.from_pretrained("LinaAlhuri/Arabic-clip-vit-base-patch32", logit_scale_init_value=1,from_pt=True)
model.save_pretrained("arabic_clip")
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic", cache_dir=None, use_fast=True)
📚 详细文档
数据情况
由于阿拉伯语资源稀缺,本项目旨在通过整合各种数据源,创建一个全面的阿拉伯语图像 - 文本数据集。面临的挑战包括阿拉伯语数据有限以及翻译数据集的质量问题。具体做法是将真实数据集合并以获取丰富信息,并使用翻译数据集覆盖不同领域、场景和对象,平衡两者的优缺点。
数据集名称 |
图像数量 |
阿拉伯语概念性描述 |
1,427,210 |
阿拉伯语COCO 2014 |
414,113 |
阿拉伯语WIT |
109,366 |
阿拉伯语Flicker8K |
24,272 |
提议的(WAP)数据集 |
151,252 |
总计 |
2,126,213 |
性能与局限性
我们在针对零样本学习、图像检索、定位和图像搜索等任务定制的不同基准测试中测试了阿拉伯语CLIP的有效性,涉及的基准包括:
- 概念性描述
- COCO
- ImageNet
- Unsplash
零样本学习
多语言CLIP |
前1准确率 |
前5准确率 |
前10准确率 |
前100准确率 |
短翻译 |
10.10 |
21.99 |
26.70 |
47.57 |
长翻译 |
9.518 |
20.942 |
25.54 |
45.59 |
阿拉伯语基线Patch 32 |
前1准确率 |
前5准确率 |
前10准确率 |
前100准确率 |
短翻译 |
17.58 |
37.15 |
45.60 |
73.02 |
长翻译 |
16.94 |
37.12 |
45.44 |
72.94 |
图像检索
概念性描述评估
指标 |
多语言CLIP |
基线Patch 32 |
MRR@1 |
0.064 |
0.165 |
MRR@5 |
0.093 |
0.231 |
MRR@10 |
0.100 |
0.244 |
COCO评估
指标 |
多语言CLIP |
基线Patch 32 |
MRR@1 |
0.043 |
0.082 |
MRR@5 |
0.068 |
0.127 |
MRR@10 |
0.074 |
0.138 |
局限性
- 阿拉伯语CLIP在处理数量大于3的计数任务时存在困难。
- 阿拉伯语的真实样本有限。
- 由于已发布的阿拉伯语数据集或阿拉伯语语言模型尚未对该问题进行研究,可能会在阿拉伯语CLIP中引入各种噪声和偏差。
偏差问题
需要注意的是,阿拉伯语使用双性系统,所有名词分为阳性和阴性,而英语并非如此。将文本从英语翻译成阿拉伯语可能会导致信息丢失,甚至容易产生性别偏差。