clip-italianオープンソースモデル - 無料でイタリア語の対比言語と画像の事前学習アプリケーションを実現

ホーム

Clip Italian

clip-italianによって開発

イタリア語に特化した初のコントラスト言語-画像事前学習モデルで、イタリア語BERTとViTアーキテクチャを基盤とし、わずか140万サンプルのファインチューニングで競争力のある性能を実現

テキスト生成画像その他オープンソースライセンス:Gpl-3.0 #イタリア語画像テキスト検索 #ゼロショット分類 #マルチモーダルコントラスト学習

ダウンロード数 960

リリース時間 : 3/2/2022

モデル概要

このモデルはコントラスト学習によりイタリア語テキストと画像のクロスモーダル理解を実現し、画像検索やゼロショット分類などのタスクをサポート

モデル特徴

少数サンプル効率的学習

わずか140万の訓練サンプルで競争力のある性能を達成、元のCLIPの4億データ要件を大幅に下回る

クロスモーダル理解

コントラスト学習によるイタリア語テキストと画像の意味的アラインメントを実現

ゼロショット転移能力

ファインチューニングなしで直接下流視覚タスクに適用可能

複数データソース統合

WIT、MSCOCO-ITなど4つのイタリア語視覚-言語データセットを統合

モデル能力

イタリア語画像キャプション理解

テキストベース画像検索

ゼロショット画像分類

クロスモーダル特徴抽出

使用事例

マルチメディア検索

イタリア語画像検索

自然言語記述による関連画像検索

MSCOCO-IT検証セットでMRR@10が0.5204を達成

インテリジェント分類

ゼロショット画像分類

訓練なしで未見の画像カテゴリを直接分類

ImageNetでTop-5精度43.69%

🚀 イタリア語版CLIP

我々は、いくつかの工夫を施すことで、わずか140万個の学習サンプルで競争力のあるイタリア語版CLIPモデルを微調整することに成功しました。当社のイタリア語版CLIPモデルは、dbmdzによって提供されるイタリア語版BERTモデルとOpenAIのビジョントランスフォーマーをベースに構築されています。

すぐにモデルをテストしたいですか？デモアプリケーションにアクセスするだけで、すぐに試すことができます。デモには、学習の工夫から最も印象的な結果まで、プロジェクトのすべての詳細が含まれています！

論文: Contrastive Language-Image Pre-training for the Italian Language

✨ 主な機能

わずか140万個の学習サンプルで微調整されたイタリア語版CLIPモデル
イタリア語版BERTとOpenAIのビジョントランスフォーマーをベースに構築
デモアプリケーションですぐにモデルをテストできる

📦 インストール

ドキュメントに具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

ドキュメントに具体的なコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

学習データ

我々は、4つの主要なデータソースを考慮しました。

WIT は、Wikipediaから収集された画像とキャプションのデータセットです（Srinivasan et al., 2021 を参照）。
MSCOCO-IT。この画像とキャプションのデータセットは、Scaiella et al., 2019 の研究に由来します。
Conceptual Captions。この画像とキャプションのデータセットは、Sharma et al., 2018 の研究に由来します。
La Foto del Giorno。この画像とキャプションのデータセットは、著名なイタリアのオンライン新聞 Il Post から収集されています。

我々は、より良いデータ拡張、戦略的な学習選択（元のCLIP論文よりもはるかに少ないデータを使用）、およびバックボーンの凍結による事前学習を行いました。詳細については、デモを参照してください。

実験

定量的評価

我々のイタリア語版CLIPモデルの性能をより良く理解するために、実験的評価を行いました。これはイタリア語での最初のCLIPベースのモデルであるため、多言語CLIPモデルを比較のベースラインとして使用しました。

mCLIP

多言語CLIP（以降、mCLIP）は、Nils Reimers によって sentence-transformer ライブラリで導入されたモデルです。mCLIPは、多言語知識蒸留を通じて作成された多言語エンコーダに基づいています（Reimers et al., 2020 を参照）。

タスク

我々は、2つの異なるタスクを選択しました。

画像検索
ゼロショット画像分類

再現性

両方の実験は非常に再現しやすいはずです。我々は2つの結果を計算するために使用した2つのColabノートブックを共有しています。

画像検索

この実験は、MSCOCO-IT検証セット（学習には使用していません）に対して実行されます。キャプションを入力として与えられると、MSCOCO-IT検証セット内で最も類似した画像を検索します。評価指標として、MRR@Kを使用します。

MRR	CLIP-イタリア語版	mCLIP
MRR@1	0.3797	0.2874
MRR@5	0.5039	0.3957
MRR@10	0.5204	0.4129

確かに、我々は学習にMSCOCO-ITを使用しているため、これが有利になる可能性があります。しかし、元のCLIPモデルは4億枚の画像で学習されており（その中にはMSCOCOの画像も含まれている可能性があります）。

ゼロショット画像分類

この実験は、OpenAIによって実行された元のゼロショット画像分類の実験を再現しています。これを行うために、DeepLを使用してImageNetの画像ラベルを翻訳しました。異なるレベルでの精度を計算することで、モデルを評価します。

精度	CLIP-イタリア語版	mCLIP
精度@1	22.11	20.15
精度@5	43.69	36.57
精度@10	52.55	42.91
精度@100	81.08	67.11

我々の結果は、CLIP-イタリア語版が非常に競争力があり、テストした2つの異なるタスクでmCLIPを上回っていることを確認しています。ただし、我々の結果は元のOpenAIの論文で示された結果よりも低いことに注意してください（Radford et al., 2021 を参照）。しかし、我々の結果がmCLIPによって得られた結果と一致していることを考えると、翻訳された画像ラベルが最終的なスコアに影響を与えている可能性があります。