M

M BERT Base ViT B

M-CLIPによって開発
BERT-base-multilingualをファインチューニングした多言語CLIPテキストエンコーダで、69言語をCLIPビジュアルエンコーダとアライメントできます。
ダウンロード数 3,376
リリース時間 : 3/2/2022

モデル概要

このモデルは、BERT-base-multilingualをファインチューニングすることで、69言語のテキスト埋め込み空間をViT-B/32ビジュアルエンコーダに対応するCLIPテキストエンコーダとアライメントし、多言語のビジュアル - 言語理解能力を実現します。

モデル特徴

多言語対応
69言語のテキスト埋め込みをCLIPビジュアル空間とアライメントできます。
クロスモーダルアライメント
線形投影により、多言語BERT埋め込みをCLIPビジュアルエンコーダの共有空間にマッピングします。
翻訳データ強化
GCC+MSCOCO+VizWizの組み合わせデータの翻訳を使用して多言語訓練セットを生成します。

モデル能力

多言語テキスト埋め込み
クロスモーダル検索
画像 - テキストマッチング
多言語ビジュアル意味理解

使用事例

クロスモーダル検索
多言語画像検索
異なる言語でクエリを行い、関連する画像を検索します。
多言語コンテンツ理解
多言語画像注釈
画像に対して複数の言語の説明テキストを生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase