mexma - siglip2開源多模態模型 - 支持80種語言的圖像與文本匹配應用

首頁

Mexma Siglip2

由visheratin開發

MEXMA-SigLIP2是一個結合了MEXMA多語言文本編碼器和SigLIP2圖像編碼器的高性能CLIP模型，支持80種語言。

文本生成圖像

Safetensors

支持多種語言開源協議:MIT #多語言零樣本檢索 #跨模態高精度 #80語言支持

下載量 224

發布時間 : 3/2/2025

模型概述

該模型結合了MEXMA多語言文本編碼器和SigLIP2圖像編碼器，實現了跨模態檢索功能，特別擅長零樣本圖像分類任務。

模型特點

多語言支持

支持80種語言，包括多種亞洲、歐洲和非洲語言

高性能跨模態檢索

在Crossmodal-3600數據集上創造了新的最先進水平

零樣本學習能力

無需特定任務的微調即可執行圖像分類任務

模型能力

零樣本圖像分類

跨模態檢索

多語言文本理解

圖像-文本匹配

使用案例

圖像檢索

多語言圖像搜索

使用不同語言查詢檢索相關圖像

在Crossmodal-3600數據集上達到62.54%的圖像檢索準確率

文本檢索

圖像相關文本檢索

根據圖像內容檢索相關文本描述

在Crossmodal-3600數據集上達到59.99%的文本檢索準確率

🚀 MEXMA-SigLIP2模型

MEXMA-SigLIP2是一個高性能的零樣本圖像分類模型，它結合了多語言文本編碼器與圖像編碼器，支持80種語言，在跨模態數據集上取得了優異的檢索成績。

🚀 快速開始

模型概述

MEXMA-SigLIP2結合了 MEXMA 多語言文本編碼器和 SigLIP2 模型的圖像編碼器，從而為80種語言提供了高性能的CLIP模型。MEXMA-SigLIP2在 Crossmodal-3600 數據集上創造了新的最優成績，圖像檢索的R@1達到62.54%，文本檢索的R@1達到59.99%。

模型信息

屬性	詳情
模型類型	零樣本圖像分類
支持語言	ar（阿拉伯語）、kn（卡納達語）、ka（格魯吉亞語）、af（南非語）、kk（哈薩克語）、am（阿姆哈拉語）、km（高棉語）、ky（吉爾吉斯語）、ko（韓語）、as（阿薩姆語）、lo（老撾語）、az（阿塞拜疆語）、ml（馬拉雅拉姆語）、mr（馬拉地語）、be（白俄羅斯語）、mk（馬其頓語）、bn（孟加拉語）、my（緬甸語）、bs（波斯尼亞語）、nl（荷蘭語）、bg（保加利亞語）、ca（加泰羅尼亞語）、no（挪威語）、cs（捷克語）、ne（尼泊爾語）、ku（庫爾德語）、pl（波蘭語）、cy（威爾士語）、pt（葡萄牙語）、da（丹麥語）、ro（羅馬尼亞語）、de（德語）、ru（俄語）、el（希臘語）、sa（梵語）、en（英語）、si（僧伽羅語）、eo（世界語）、sk（斯洛伐克語）、et（愛沙尼亞語）、sl（斯洛文尼亞語）、eu（巴斯克語）、sd（信德語）、fi（芬蘭語）、so（索馬里語）、fr（法語）、es（西班牙語）、gd（蘇格蘭蓋爾語）、sr（塞爾維亞語）、ga（愛爾蘭語）、su（巽他語）、gl（加利西亞語）、sv（瑞典語）、gu（古吉拉特語）、sw（斯瓦希里語）、ha（豪薩語）、ta（泰米爾語）、he（希伯來語）、te（泰盧固語）、hi（印地語）、th（泰語）、hr（克羅地亞語）、tr（土耳其語）、hu（匈牙利語）、ug（維吾爾語）、hy（亞美尼亞語）、uk（烏克蘭語）、id（印尼語）、ur（烏爾都語）、is（冰島語）、vi（越南語）、it（意大利語）、xh（科薩語）、jv（爪哇語）、zh（中文）、ja（日語）

屬性

詳情

模型類型

零樣本圖像分類

支持語言

ar（阿拉伯語）、kn（卡納達語）、ka（格魯吉亞語）、af（南非語）、kk（哈薩克語）、am（阿姆哈拉語）、km（高棉語）、ky（吉爾吉斯語）、ko（韓語）、as（阿薩姆語）、lo（老撾語）、az（阿塞拜疆語）、ml（馬拉雅拉姆語）、mr（馬拉地語）、be（白俄羅斯語）、mk（馬其頓語）、bn（孟加拉語）、my（緬甸語）、bs（波斯尼亞語）、nl（荷蘭語）、bg（保加利亞語）、ca（加泰羅尼亞語）、no（挪威語）、cs（捷克語）、ne（尼泊爾語）、ku（庫爾德語）、pl（波蘭語）、cy（威爾士語）、pt（葡萄牙語）、da（丹麥語）、ro（羅馬尼亞語）、de（德語）、ru（俄語）、el（希臘語）、sa（梵語）、en（英語）、si（僧伽羅語）、eo（世界語）、sk（斯洛伐克語）、et（愛沙尼亞語）、sl（斯洛文尼亞語）、eu（巴斯克語）、sd（信德語）、fi（芬蘭語）、so（索馬里語）、fr（法語）、es（西班牙語）、gd（蘇格蘭蓋爾語）、sr（塞爾維亞語）、ga（愛爾蘭語）、su（巽他語）、gl（加利西亞語）、sv（瑞典語）、gu（古吉拉特語）、sw（斯瓦希里語）、ha（豪薩語）、ta（泰米爾語）、he（希伯來語）、te（泰盧固語）、hi（印地語）、th（泰語）、hr（克羅地亞語）、tr（土耳其語）、hu（匈牙利語）、ug（維吾爾語）、hy（亞美尼亞語）、uk（烏克蘭語）、id（印尼語）、ur（烏爾都語）、is（冰島語）、vi（越南語）、it（意大利語）、xh（科薩語）、jv（爪哇語）、zh（中文）、ja（日語）

模型評估結果

任務	數據集	指標	值
零樣本檢索	Crossmodal-3600	圖像檢索R@1	62.54%
零樣本檢索	Crossmodal-3600	文本檢索R@1	59.99%

💻 使用示例

基礎用法

from transformers import AutoModel, AutoTokenizer, AutoImageProcessor
from PIL import Image
import requests
import torch

model = AutoModel.from_pretrained("visheratin/mexma-siglip2", torch_dtype=torch.bfloat16, trust_remote_code=True, optimized=True).to("cuda")
tokenizer = AutoTokenizer.from_pretrained("visheratin/mexma-siglip2")
processor = AutoImageProcessor.from_pretrained("visheratin/mexma-siglip2")

img = Image.open(requests.get("https://static.independent.co.uk/s3fs-public/thumbnails/image/2014/03/25/12/eiffel.jpg", stream=True).raw)
img = processor(images=img, return_tensors="pt")["pixel_values"]
img = img.to(torch.bfloat16).to("cuda")
with torch.inference_mode():
    text = tokenizer(["кошка", "a dog", "एफिल टॉवर"], return_tensors="pt", padding=True).to("cuda")
    image_logits, text_logits = model.get_logits(text["input_ids"], text["attention_mask"], img)
    probs = image_logits.softmax(dim=-1)
    print(probs)