clip-italian開源模型 - 免費實現意大利語對比語言與圖像預訓練應用

首頁

Clip Italian

由clip-italian開發

首個針對意大利語的對比語言-圖像預訓練模型，基於意大利語BERT和ViT架構，僅用140萬樣本微調實現競爭力表現

文本生成圖像其他開源協議:Gpl-3.0 #意語圖文檢索 #零樣本分類 #多模態對比學習

下載量 960

發布時間 : 3/2/2022

模型概述

該模型通過對比學習實現意大利語文本與圖像的跨模態理解，支持圖像檢索和零樣本分類等任務

模型特點

小樣本高效訓練

僅使用140萬訓練樣本即達到競爭性表現，遠低於原始CLIP的4億數據需求

跨模態理解

通過對比學習實現意大利語文本與圖像的語義對齊

零樣本遷移能力

無需微調即可直接應用於下游視覺任務

多源數據融合

整合WIT、MSCOCO-IT等4個意大利語視覺-語言數據集

模型能力

意大利語圖像描述理解

基於文本的圖像檢索

零樣本圖像分類

跨模態特徵提取

使用案例

多媒體檢索

意大利語圖像搜索

通過自然語言描述檢索相關圖像

在MSCOCO-IT驗證集上MRR@10達0.5204

智能分類

零樣本圖像分類

無需訓練直接分類未見過的圖像類別

ImageNet上Top-5準確率43.69%

🚀 意大利語CLIP

通過一些技巧，我們僅使用140萬個訓練樣本就微調出了一個有競爭力的意大利語CLIP模型。該模型基於dbmdz提供的意大利語BERT模型和OpenAI的視覺變換器構建。

🚀 快速開始

你想立即測試我們的模型嗎？我們為你提供了便捷途徑！你只需前往我們的演示應用。該演示還包含了項目的所有詳細信息，從訓練技巧到我們最令人印象深刻的成果等等！

✨ 主要特性

僅使用140萬個訓練樣本就微調出有競爭力的意大利語CLIP模型。
基於意大利語BERT模型和OpenAI 視覺變換器構建。

📚 詳細文檔

論文

Contrastive Language-Image Pre-training for the Italian Language

訓練數據

我們考慮了四個主要的數據來源：

WIT 是一個從維基百科收集的圖像 - 文本數據集（見 Srinivasan et al., 2021）。
MSCOCO-IT。這個圖像 - 文本數據集來自 Scaiella et al., 2019 的工作。
Conceptual Captions。這個圖像 - 文本數據集來自 Sharma et al., 2018 的工作。
La Foto del Giorno。這個圖像 - 文本數據集是從意大利著名的在線報紙 Il Post 收集的。

我們使用了更好的數據增強、戰略性的訓練選擇（我們的數據比原始CLIP論文少得多）以及凍結主幹的預訓練。有關所有詳細信息，請參考我們的演示。

實驗

定量評估

為了更好地瞭解我們的clip - italian模型的性能，我們進行了實驗評估。由於這是第一個基於意大利語的clip模型，我們使用多語言CLIP模型作為比較基線。

mCLIP

多語言CLIP（以下簡稱mCLIP）是由 Nils Reimers 在他的 sentence - transformer 庫中引入的模型。mCLIP基於一個通過多語言知識蒸餾創建的多語言編碼器（見 Reimers et al., 2020）。

任務

我們選擇了兩個不同的任務：

圖像檢索
零樣本分類

可重複性

這兩個實驗都應該很容易復現，我們分享了用於計算兩個結果的兩個Colab筆記本：

圖像檢索

這個實驗是針對MSCOCO - IT驗證集（我們在訓練中未使用該驗證集）進行的。給定一個文本描述作為輸入，我們在MSCOCO - IT驗證集中搜索最相似的圖像。我們使用MRR@K作為評估指標。

MRR	CLIP - 意大利語	mCLIP
MRR@1	0.3797	0.2874
MRR@5	0.5039	0.3957
MRR@10	0.5204	0.4129

確實，我們在訓練中使用了MSCOCO - IT，這可能會給我們帶來優勢。然而，原始的CLIP模型在4億張圖像上進行了訓練（其中一些可能來自MSCOCO）。

零樣本圖像分類

這個實驗複製了OpenAI在ImageNet上進行的零樣本圖像分類實驗。為此，我們使用DeepL翻譯了ImageNet中的圖像標籤。我們在不同級別計算準確率來評估模型。

準確率	CLIP - 意大利語	mCLIP
準確率@1	22.11	20.15
準確率@5	43.69	36.57
準確率@10	52.55	42.91
準確率@100	81.08	67.11

我們的結果證實，CLIP - 意大利語模型非常有競爭力，在我們測試的兩個不同任務上都擊敗了mCLIP。然而，請注意，我們的結果低於原始OpenAI論文中顯示的結果（見 Radford et al., 2021）。不過，考慮到我們的結果與mCLIP獲得的結果一致，我們認為翻譯後的圖像標籤可能對最終得分有影響。