🚀 MEXMA-SigLIP2模型
MEXMA-SigLIP2是一个高性能的零样本图像分类模型,它结合了多语言文本编码器与图像编码器,支持80种语言,在跨模态数据集上取得了优异的检索成绩。
🚀 快速开始
模型概述
MEXMA-SigLIP2结合了 MEXMA 多语言文本编码器和 SigLIP2 模型的图像编码器,从而为80种语言提供了高性能的CLIP模型。MEXMA-SigLIP2在 Crossmodal-3600 数据集上创造了新的最优成绩,图像检索的R@1达到62.54%,文本检索的R@1达到59.99%。
模型信息
属性 |
详情 |
模型类型 |
零样本图像分类 |
支持语言 |
ar(阿拉伯语)、kn(卡纳达语)、ka(格鲁吉亚语)、af(南非语)、kk(哈萨克语)、am(阿姆哈拉语)、km(高棉语)、ky(吉尔吉斯语)、ko(韩语)、as(阿萨姆语)、lo(老挝语)、az(阿塞拜疆语)、ml(马拉雅拉姆语)、mr(马拉地语)、be(白俄罗斯语)、mk(马其顿语)、bn(孟加拉语)、my(缅甸语)、bs(波斯尼亚语)、nl(荷兰语)、bg(保加利亚语)、ca(加泰罗尼亚语)、no(挪威语)、cs(捷克语)、ne(尼泊尔语)、ku(库尔德语)、pl(波兰语)、cy(威尔士语)、pt(葡萄牙语)、da(丹麦语)、ro(罗马尼亚语)、de(德语)、ru(俄语)、el(希腊语)、sa(梵语)、en(英语)、si(僧伽罗语)、eo(世界语)、sk(斯洛伐克语)、et(爱沙尼亚语)、sl(斯洛文尼亚语)、eu(巴斯克语)、sd(信德语)、fi(芬兰语)、so(索马里语)、fr(法语)、es(西班牙语)、gd(苏格兰盖尔语)、sr(塞尔维亚语)、ga(爱尔兰语)、su(巽他语)、gl(加利西亚语)、sv(瑞典语)、gu(古吉拉特语)、sw(斯瓦希里语)、ha(豪萨语)、ta(泰米尔语)、he(希伯来语)、te(泰卢固语)、hi(印地语)、th(泰语)、hr(克罗地亚语)、tr(土耳其语)、hu(匈牙利语)、ug(维吾尔语)、hy(亚美尼亚语)、uk(乌克兰语)、id(印尼语)、ur(乌尔都语)、is(冰岛语)、vi(越南语)、it(意大利语)、xh(科萨语)、jv(爪哇语)、zh(中文)、ja(日语) |
模型评估结果
任务 |
数据集 |
指标 |
值 |
零样本检索 |
Crossmodal-3600 |
图像检索R@1 |
62.54% |
零样本检索 |
Crossmodal-3600 |
文本检索R@1 |
59.99% |
💻 使用示例
基础用法
from transformers import AutoModel, AutoTokenizer, AutoImageProcessor
from PIL import Image
import requests
import torch
model = AutoModel.from_pretrained("visheratin/mexma-siglip2", torch_dtype=torch.bfloat16, trust_remote_code=True, optimized=True).to("cuda")
tokenizer = AutoTokenizer.from_pretrained("visheratin/mexma-siglip2")
processor = AutoImageProcessor.from_pretrained("visheratin/mexma-siglip2")
img = Image.open(requests.get("https://static.independent.co.uk/s3fs-public/thumbnails/image/2014/03/25/12/eiffel.jpg", stream=True).raw)
img = processor(images=img, return_tensors="pt")["pixel_values"]
img = img.to(torch.bfloat16).to("cuda")
with torch.inference_mode():
text = tokenizer(["кошка", "a dog", "एफिल टॉवर"], return_tensors="pt", padding=True).to("cuda")
image_logits, text_logits = model.get_logits(text["input_ids"], text["attention_mask"], img)
probs = image_logits.softmax(dim=-1)
print(probs)
📄 许可证
本项目采用MIT许可证。
🙏 致谢
感谢 ML Collective 提供计算资源来训练该模型。