🚀 阿拉伯語CLIP模型
阿拉伯語CLIP模型是對對比語言 - 圖像預訓練(CLIP)模型的阿拉伯語適配。CLIP是OpenAI開發的模型,它能從圖像中學習概念,並將其與文本描述關聯起來。本項目旨在提升模型在阿拉伯語語境下對視覺信息的理解和解讀能力。
🚀 快速開始
模型使用示例
from transformers import AutoTokenizer, FlaxVisionTextDualEncoderModel
model = FlaxVisionTextDualEncoderModel.from_pretrained("LinaAlhuri/Arabic-clip-vit-base-patch32", logit_scale_init_value=1,from_pt=True)
model.save_pretrained("arabic_clip")
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic", cache_dir=None, use_fast=True)
✨ 主要特性
阿拉伯語CLIP模型通過適配CLIP模型,使其能夠處理阿拉伯語相關的圖像 - 文本任務,增強了模型在阿拉伯語環境下的應用能力。
📦 安裝指南
文檔中未明確提及安裝指南,若需使用該模型,可參考上述代碼示例中的依賴庫安裝。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, FlaxVisionTextDualEncoderModel
model = FlaxVisionTextDualEncoderModel.from_pretrained("LinaAlhuri/Arabic-clip-vit-base-patch32", logit_scale_init_value=1,from_pt=True)
model.save_pretrained("arabic_clip")
tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-base-arabic", cache_dir=None, use_fast=True)
📚 詳細文檔
數據情況
由於阿拉伯語資源稀缺,本項目旨在通過整合各種數據源,創建一個全面的阿拉伯語圖像 - 文本數據集。面臨的挑戰包括阿拉伯語數據有限以及翻譯數據集的質量問題。具體做法是將真實數據集合並以獲取豐富信息,並使用翻譯數據集覆蓋不同領域、場景和對象,平衡兩者的優缺點。
數據集名稱 |
圖像數量 |
阿拉伯語概念性描述 |
1,427,210 |
阿拉伯語COCO 2014 |
414,113 |
阿拉伯語WIT |
109,366 |
阿拉伯語Flicker8K |
24,272 |
提議的(WAP)數據集 |
151,252 |
總計 |
2,126,213 |
性能與侷限性
我們在針對零樣本學習、圖像檢索、定位和圖像搜索等任務定製的不同基準測試中測試了阿拉伯語CLIP的有效性,涉及的基準包括:
- 概念性描述
- COCO
- ImageNet
- Unsplash
零樣本學習
多語言CLIP |
前1準確率 |
前5準確率 |
前10準確率 |
前100準確率 |
短翻譯 |
10.10 |
21.99 |
26.70 |
47.57 |
長翻譯 |
9.518 |
20.942 |
25.54 |
45.59 |
阿拉伯語基線Patch 32 |
前1準確率 |
前5準確率 |
前10準確率 |
前100準確率 |
短翻譯 |
17.58 |
37.15 |
45.60 |
73.02 |
長翻譯 |
16.94 |
37.12 |
45.44 |
72.94 |
圖像檢索
概念性描述評估
指標 |
多語言CLIP |
基線Patch 32 |
MRR@1 |
0.064 |
0.165 |
MRR@5 |
0.093 |
0.231 |
MRR@10 |
0.100 |
0.244 |
COCO評估
指標 |
多語言CLIP |
基線Patch 32 |
MRR@1 |
0.043 |
0.082 |
MRR@5 |
0.068 |
0.127 |
MRR@10 |
0.074 |
0.138 |
侷限性
- 阿拉伯語CLIP在處理數量大於3的計數任務時存在困難。
- 阿拉伯語的真實樣本有限。
- 由於已發佈的阿拉伯語數據集或阿拉伯語語言模型尚未對該問題進行研究,可能會在阿拉伯語CLIP中引入各種噪聲和偏差。
偏差問題
需要注意的是,阿拉伯語使用雙性系統,所有名詞分為陽性和陰性,而英語並非如此。將文本從英語翻譯成阿拉伯語可能會導致信息丟失,甚至容易產生性別偏差。