M-BERT-Base-ViT-B Open Source Model - Supports 69 Languages and Achieves Alignment of Multilingual Text Encoding and Visual Encoding

M BERT Base ViT B

Developed by M-CLIP

A multilingual CLIP text encoder fine-tuned from BERT-base-multilingual, supporting alignment with CLIP visual encoder across 69 languages

Multimodal Alignment #Multilingual CLIP Alignment #69 Language Support #Cross-modal Retrieval

Downloads 3,376

Release Time : 3/2/2022

Model Overview

This model fine-tunes BERT-base-multilingual to align the text embedding space of 69 languages with the CLIP text encoder paired with ViT-B/32 visual encoder, enabling multilingual vision-language understanding.

Model Features

Multilingual Support

Supports text embedding alignment with CLIP visual space for 69 languages

Cross-modal Alignment

Maps multilingual BERT embeddings to CLIP visual encoder's shared space via linear projection

Translation Data Augmentation

Uses translated GCC+MSCOCO+VizWiz composite data to generate multilingual training sets

Model Capabilities

Multilingual Text Embedding

Cross-modal Retrieval

Image-Text Matching

Multilingual Visual Semantic Understanding

Use Cases

Cross-modal Retrieval

Multilingual Image Search

Retrieve relevant images using queries in different languages

Multilingual Content Understanding

Multilingual Image Captioning

Generate descriptive texts for images in multiple languages

Property	Details
Model Type	A BERT-base-multilingual tuned to match the embedding space of CLIP text encoder
Training Data	Sampled 40k sentences for each of 69 languages from GCC, MSCOCO, and VizWiz descriptions, translated using AWS translate service

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

M BERT Base ViT B

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 M-BERT Base ViT-B

🚀 Quick Start

Basic Usage

📚 Documentation

About