mexma - siglip2开源多模态模型 - 支持80种语言的图像与文本匹配应用

首页

Mexma Siglip2

由 visheratin 开发

MEXMA-SigLIP2是一个结合了MEXMA多语言文本编码器和SigLIP2图像编码器的高性能CLIP模型，支持80种语言。

文本生成图像

Safetensors

支持多种语言开源协议:MIT #多语言零样本检索 #跨模态高精度 #80语言支持

下载量 224

发布时间 : 3/2/2025

模型简介

该模型结合了MEXMA多语言文本编码器和SigLIP2图像编码器，实现了跨模态检索功能，特别擅长零样本图像分类任务。

模型特点

多语言支持

支持80种语言，包括多种亚洲、欧洲和非洲语言

高性能跨模态检索

在Crossmodal-3600数据集上创造了新的最先进水平

零样本学习能力

无需特定任务的微调即可执行图像分类任务

模型能力

零样本图像分类

跨模态检索

多语言文本理解

图像-文本匹配

使用案例

图像检索

多语言图像搜索

使用不同语言查询检索相关图像

在Crossmodal-3600数据集上达到62.54%的图像检索准确率

文本检索

图像相关文本检索

根据图像内容检索相关文本描述

在Crossmodal-3600数据集上达到59.99%的文本检索准确率

🚀 MEXMA-SigLIP2模型

MEXMA-SigLIP2是一个高性能的零样本图像分类模型，它结合了多语言文本编码器与图像编码器，支持80种语言，在跨模态数据集上取得了优异的检索成绩。

🚀 快速开始

模型概述

MEXMA-SigLIP2结合了 MEXMA 多语言文本编码器和 SigLIP2 模型的图像编码器，从而为80种语言提供了高性能的CLIP模型。MEXMA-SigLIP2在 Crossmodal-3600 数据集上创造了新的最优成绩，图像检索的R@1达到62.54%，文本检索的R@1达到59.99%。

模型信息

属性	详情
模型类型	零样本图像分类
支持语言	ar（阿拉伯语）、kn（卡纳达语）、ka（格鲁吉亚语）、af（南非语）、kk（哈萨克语）、am（阿姆哈拉语）、km（高棉语）、ky（吉尔吉斯语）、ko（韩语）、as（阿萨姆语）、lo（老挝语）、az（阿塞拜疆语）、ml（马拉雅拉姆语）、mr（马拉地语）、be（白俄罗斯语）、mk（马其顿语）、bn（孟加拉语）、my（缅甸语）、bs（波斯尼亚语）、nl（荷兰语）、bg（保加利亚语）、ca（加泰罗尼亚语）、no（挪威语）、cs（捷克语）、ne（尼泊尔语）、ku（库尔德语）、pl（波兰语）、cy（威尔士语）、pt（葡萄牙语）、da（丹麦语）、ro（罗马尼亚语）、de（德语）、ru（俄语）、el（希腊语）、sa（梵语）、en（英语）、si（僧伽罗语）、eo（世界语）、sk（斯洛伐克语）、et（爱沙尼亚语）、sl（斯洛文尼亚语）、eu（巴斯克语）、sd（信德语）、fi（芬兰语）、so（索马里语）、fr（法语）、es（西班牙语）、gd（苏格兰盖尔语）、sr（塞尔维亚语）、ga（爱尔兰语）、su（巽他语）、gl（加利西亚语）、sv（瑞典语）、gu（古吉拉特语）、sw（斯瓦希里语）、ha（豪萨语）、ta（泰米尔语）、he（希伯来语）、te（泰卢固语）、hi（印地语）、th（泰语）、hr（克罗地亚语）、tr（土耳其语）、hu（匈牙利语）、ug（维吾尔语）、hy（亚美尼亚语）、uk（乌克兰语）、id（印尼语）、ur（乌尔都语）、is（冰岛语）、vi（越南语）、it（意大利语）、xh（科萨语）、jv（爪哇语）、zh（中文）、ja（日语）

属性

详情

模型类型

零样本图像分类

支持语言

ar（阿拉伯语）、kn（卡纳达语）、ka（格鲁吉亚语）、af（南非语）、kk（哈萨克语）、am（阿姆哈拉语）、km（高棉语）、ky（吉尔吉斯语）、ko（韩语）、as（阿萨姆语）、lo（老挝语）、az（阿塞拜疆语）、ml（马拉雅拉姆语）、mr（马拉地语）、be（白俄罗斯语）、mk（马其顿语）、bn（孟加拉语）、my（缅甸语）、bs（波斯尼亚语）、nl（荷兰语）、bg（保加利亚语）、ca（加泰罗尼亚语）、no（挪威语）、cs（捷克语）、ne（尼泊尔语）、ku（库尔德语）、pl（波兰语）、cy（威尔士语）、pt（葡萄牙语）、da（丹麦语）、ro（罗马尼亚语）、de（德语）、ru（俄语）、el（希腊语）、sa（梵语）、en（英语）、si（僧伽罗语）、eo（世界语）、sk（斯洛伐克语）、et（爱沙尼亚语）、sl（斯洛文尼亚语）、eu（巴斯克语）、sd（信德语）、fi（芬兰语）、so（索马里语）、fr（法语）、es（西班牙语）、gd（苏格兰盖尔语）、sr（塞尔维亚语）、ga（爱尔兰语）、su（巽他语）、gl（加利西亚语）、sv（瑞典语）、gu（古吉拉特语）、sw（斯瓦希里语）、ha（豪萨语）、ta（泰米尔语）、he（希伯来语）、te（泰卢固语）、hi（印地语）、th（泰语）、hr（克罗地亚语）、tr（土耳其语）、hu（匈牙利语）、ug（维吾尔语）、hy（亚美尼亚语）、uk（乌克兰语）、id（印尼语）、ur（乌尔都语）、is（冰岛语）、vi（越南语）、it（意大利语）、xh（科萨语）、jv（爪哇语）、zh（中文）、ja（日语）

模型评估结果

任务	数据集	指标	值
零样本检索	Crossmodal-3600	图像检索R@1	62.54%
零样本检索	Crossmodal-3600	文本检索R@1	59.99%

💻 使用示例

基础用法

from transformers import AutoModel, AutoTokenizer, AutoImageProcessor
from PIL import Image
import requests
import torch

model = AutoModel.from_pretrained("visheratin/mexma-siglip2", torch_dtype=torch.bfloat16, trust_remote_code=True, optimized=True).to("cuda")
tokenizer = AutoTokenizer.from_pretrained("visheratin/mexma-siglip2")
processor = AutoImageProcessor.from_pretrained("visheratin/mexma-siglip2")

img = Image.open(requests.get("https://static.independent.co.uk/s3fs-public/thumbnails/image/2014/03/25/12/eiffel.jpg", stream=True).raw)
img = processor(images=img, return_tensors="pt")["pixel_values"]
img = img.to(torch.bfloat16).to("cuda")
with torch.inference_mode():
    text = tokenizer(["кошка", "a dog", "एफिल टॉवर"], return_tensors="pt", padding=True).to("cuda")
    image_logits, text_logits = model.get_logits(text["input_ids"], text["attention_mask"], img)
    probs = image_logits.softmax(dim=-1)
    print(probs)