🚀 MEXMA-SigLIP2模型
MEXMA-SigLIP2是一個高性能的零樣本圖像分類模型,它結合了多語言文本編碼器與圖像編碼器,支持80種語言,在跨模態數據集上取得了優異的檢索成績。
🚀 快速開始
模型概述
MEXMA-SigLIP2結合了 MEXMA 多語言文本編碼器和 SigLIP2 模型的圖像編碼器,從而為80種語言提供了高性能的CLIP模型。MEXMA-SigLIP2在 Crossmodal-3600 數據集上創造了新的最優成績,圖像檢索的R@1達到62.54%,文本檢索的R@1達到59.99%。
模型信息
屬性 |
詳情 |
模型類型 |
零樣本圖像分類 |
支持語言 |
ar(阿拉伯語)、kn(卡納達語)、ka(格魯吉亞語)、af(南非語)、kk(哈薩克語)、am(阿姆哈拉語)、km(高棉語)、ky(吉爾吉斯語)、ko(韓語)、as(阿薩姆語)、lo(老撾語)、az(阿塞拜疆語)、ml(馬拉雅拉姆語)、mr(馬拉地語)、be(白俄羅斯語)、mk(馬其頓語)、bn(孟加拉語)、my(緬甸語)、bs(波斯尼亞語)、nl(荷蘭語)、bg(保加利亞語)、ca(加泰羅尼亞語)、no(挪威語)、cs(捷克語)、ne(尼泊爾語)、ku(庫爾德語)、pl(波蘭語)、cy(威爾士語)、pt(葡萄牙語)、da(丹麥語)、ro(羅馬尼亞語)、de(德語)、ru(俄語)、el(希臘語)、sa(梵語)、en(英語)、si(僧伽羅語)、eo(世界語)、sk(斯洛伐克語)、et(愛沙尼亞語)、sl(斯洛文尼亞語)、eu(巴斯克語)、sd(信德語)、fi(芬蘭語)、so(索馬里語)、fr(法語)、es(西班牙語)、gd(蘇格蘭蓋爾語)、sr(塞爾維亞語)、ga(愛爾蘭語)、su(巽他語)、gl(加利西亞語)、sv(瑞典語)、gu(古吉拉特語)、sw(斯瓦希里語)、ha(豪薩語)、ta(泰米爾語)、he(希伯來語)、te(泰盧固語)、hi(印地語)、th(泰語)、hr(克羅地亞語)、tr(土耳其語)、hu(匈牙利語)、ug(維吾爾語)、hy(亞美尼亞語)、uk(烏克蘭語)、id(印尼語)、ur(烏爾都語)、is(冰島語)、vi(越南語)、it(意大利語)、xh(科薩語)、jv(爪哇語)、zh(中文)、ja(日語) |
模型評估結果
任務 |
數據集 |
指標 |
值 |
零樣本檢索 |
Crossmodal-3600 |
圖像檢索R@1 |
62.54% |
零樣本檢索 |
Crossmodal-3600 |
文本檢索R@1 |
59.99% |
💻 使用示例
基礎用法
from transformers import AutoModel, AutoTokenizer, AutoImageProcessor
from PIL import Image
import requests
import torch
model = AutoModel.from_pretrained("visheratin/mexma-siglip2", torch_dtype=torch.bfloat16, trust_remote_code=True, optimized=True).to("cuda")
tokenizer = AutoTokenizer.from_pretrained("visheratin/mexma-siglip2")
processor = AutoImageProcessor.from_pretrained("visheratin/mexma-siglip2")
img = Image.open(requests.get("https://static.independent.co.uk/s3fs-public/thumbnails/image/2014/03/25/12/eiffel.jpg", stream=True).raw)
img = processor(images=img, return_tensors="pt")["pixel_values"]
img = img.to(torch.bfloat16).to("cuda")
with torch.inference_mode():
text = tokenizer(["кошка", "a dog", "एफिल टॉवर"], return_tensors="pt", padding=True).to("cuda")
image_logits, text_logits = model.get_logits(text["input_ids"], text["attention_mask"], img)
probs = image_logits.softmax(dim=-1)
print(probs)
📄 許可證
本項目採用MIT許可證。
🙏 致謝
感謝 ML Collective 提供計算資源來訓練該模型。