🚀 MEXMA-SigLIP模型
MEXMA-SigLIP是一個高性能的零樣本圖像分類模型,它結合了多語言文本編碼器和圖像編碼器,支持80種語言,在相關數據集上表現出色。
🚀 快速開始
模型概述
MEXMA-SigLIP結合了 MEXMA 多語言文本編碼器和 SigLIP 模型中的圖像編碼器。這使我們能夠獲得一個支持80種語言的高性能CLIP模型。MEXMA-SigLIP在 Crossmodal-3600 數據集上,在商業友好型模型中達到了最先進的水平。
支持語言
屬性 |
詳情 |
支持語言 |
ar、kn、ka、af、kk、am、km、ky、ko、as、lo、az、ml、mr、be、mk、bn、my、bs、nl、bg、ca、no、cs、ne、ku、pl、cy、pt、da、ro、de、ru、el、sa、en、si、eo、sk、et、sl、eu、sd、fi、so、fr、es、gd、sr、ga、su、gl、sv、gu、sw、ha、ta、he、te、hi、th、hr、tr、hu、ug、hy、uk、id、ur、is、vi、it、xh、jv、zh、ja |
模型類型 |
zero-shot-image-classification |
新版本 |
visheratin/mexma-siglip2 |
使用示例
基礎用法
from transformers import AutoModel, AutoTokenizer, AutoImageProcessor
from PIL import Image
import requests
import torch
model = AutoModel.from_pretrained("visheratin/mexma-siglip", torch_dtype=torch.bfloat16, trust_remote_code=True, optimized=True).to("cuda")
tokenizer = AutoTokenizer.from_pretrained("visheratin/mexma-siglip")
processor = AutoImageProcessor.from_pretrained("visheratin/mexma-siglip")
img = Image.open(requests.get("https://static.independent.co.uk/s3fs-public/thumbnails/image/2014/03/25/12/eiffel.jpg", stream=True).raw)
img = processor(images=img, return_tensors="pt")["pixel_values"]
img = img.to(torch.bfloat16).to("cuda")
with torch.inference_mode():
text = tokenizer(["кошка", "a dog", "एफिल टॉवर"], return_tensors="pt", padding=True).to("cuda")
image_logits, text_logits = model.get_logits(text["input_ids"], text["attention_mask"], img)
probs = image_logits.softmax(dim=-1)
print(probs)
📄 許可證
本項目採用MIT許可證。
🙏 致謝
感謝 ML Collective 和 Lambda 提供計算資源來訓練該模型。