M-BERT-Base-ViT-Bオープンソースモデル - 69種類の言語をサポートし、多言語テキストエンコーディングとビジュアルエンコーディングのアライメントを実現

M BERT Base ViT B

M-CLIPによって開発

BERT-base-multilingualをファインチューニングした多言語CLIPテキストエンコーダで、69言語をCLIPビジュアルエンコーダとアライメントできます。

マルチモーダルアライメント #多言語CLIPアライメント #69言語対応 #クロスモーダル検索

ダウンロード数 3,376

リリース時間 : 3/2/2022

モデル概要

このモデルは、BERT-base-multilingualをファインチューニングすることで、69言語のテキスト埋め込み空間をViT-B/32ビジュアルエンコーダに対応するCLIPテキストエンコーダとアライメントし、多言語のビジュアル - 言語理解能力を実現します。

モデル特徴

多言語対応

69言語のテキスト埋め込みをCLIPビジュアル空間とアライメントできます。

クロスモーダルアライメント

線形投影により、多言語BERT埋め込みをCLIPビジュアルエンコーダの共有空間にマッピングします。

翻訳データ強化

GCC+MSCOCO+VizWizの組み合わせデータの翻訳を使用して多言語訓練セットを生成します。

モデル能力

多言語テキスト埋め込み

クロスモーダル検索

画像 - テキストマッチング

多言語ビジュアル意味理解

使用事例

クロスモーダル検索

多言語画像検索

異なる言語でクエリを行い、関連する画像を検索します。

多言語コンテンツ理解

多言語画像注釈

画像に対して複数の言語の説明テキストを生成します。

🚀 M-BERT Base ViT-B

M-BERT Base ViT-Bは、CLIPのビジョンエンコーダと連携して使用できるモデルです。多言語に対応しており、特定の言語の埋め込み空間をCLIPのテキストエンコーダに合わせるように調整されています。

🚀 クイックスタート

このモデルを元のCLIPビジョンエンコーダと共に使用するには、Multilingual-CLIPのGithubからコードと追加の線形重みをダウンロードする必要があります。

これが完了したら、以下のコードでモデルをロードして使用できます。

基本的な使用法

from src import multilingual_clip

model = multilingual_clip.load_model('M-BERT-Base-ViT')
embeddings = model(['Älgen är skogens konung!', 'Wie leben Eisbären in der Antarktis?', 'Вы знали, что все белые медведи левши?'])
print(embeddings.shape)
# Yields: torch.Size([3, 640])

📚 ドキュメント

モデルについて

BERT-base-multilingualを調整して、69言語の埋め込み空間を、ViT-B/32ビジョンエンコーダに付属するCLIPテキストエンコーダの埋め込み空間に合わせたモデルです。
事前学習時に使用された100言語の完全なリストはこちらで確認でき、微調整時に使用された4069言語のリストはSupportedLanguages.mdで確認できます。

訓練データ

訓練データペアは、GCC + MSCOCO + VizWizの組み合わせの説明から各言語について40kの文をサンプリングし、それを対応する言語に翻訳することで生成されました。すべての翻訳はAWS翻訳サービスを使用して行われました。現在、これらの翻訳の品質は分析されていませんが、69言語間で品質が異なると考えられます。

プロパティ	詳細
モデルタイプ	BERT-base-multilingualを調整したモデル
訓練データ	GCC + MSCOCO + VizWizの説明からサンプリングした文を翻訳したもの