M-BERT-Base-ViT-B開源模型 - 支持69種語言，實現多語言文本編碼與視覺編碼對齊

首頁

M BERT Base ViT B

由M-CLIP開發

基於BERT-base-multilingual微調的多語言CLIP文本編碼器，支持69種語言與CLIP視覺編碼器對齊

多模態對齊 #多語言CLIP對齊 #69種語言支持 #跨模態檢索

下載量 3,376

發布時間 : 3/2/2022

模型概述

該模型通過微調BERT-base-multilingual，將69種語言的文本嵌入空間與ViT-B/32視覺編碼器配套的CLIP文本編碼器對齊，實現多語言視覺-語言理解能力。

模型特點

多語言支持

支持69種語言的文本嵌入與CLIP視覺空間對齊

跨模態對齊

通過線性投影將多語言BERT嵌入映射到CLIP視覺編碼器的共享空間

翻譯數據增強

使用GCC+MSCOCO+VizWiz組合數據翻譯生成多語言訓練集

模型能力

多語言文本嵌入

跨模態檢索

圖像-文本匹配

多語言視覺語義理解

使用案例

跨模態檢索

多語言圖像搜索

使用不同語言查詢檢索相關圖像

多語言內容理解

多語言圖像標註

為圖像生成多種語言的描述文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

M BERT Base ViT B

模型概述

模型特點

模型能力

使用案例

🚀 M-BERT Base ViT-B

🚀 快速開始

📚 詳細文檔

模型概述

訓練數據

模型卡片