mexma - siglip開源多模態模型 - 支持80種語言的圖文匹配高效應用

首頁

Mexma Siglip

由visheratin開發

MEXMA-SigLIP 是一個結合了多語言文本編碼器和圖像編碼器的高性能CLIP模型，支持80種語言。

文本生成圖像

Safetensors

支持多種語言開源協議:MIT #多語言圖像分類 #零樣本學習 #跨模態檢索

下載量 137

發布時間 : 12/4/2024

模型概述

該模型結合了MEXMA多語言文本編碼器和SigLIP圖像編碼器，能夠在80種語言上實現高性能的零樣本圖像分類。

模型特點

多語言支持

支持80種語言的零樣本圖像分類

高性能

在Crossmodal-3600數據集上達到商業友好型模型的最先進性能

結合優勢模型

結合了MEXMA多語言文本編碼器和SigLIP圖像編碼器的優勢

模型能力

零樣本圖像分類

多語言文本理解

圖像-文本匹配

使用案例

多語言圖像分類

多語言圖像標註

使用不同語言對圖像進行分類和標註

可準確識別圖像內容並用多種語言描述

🚀 MEXMA-SigLIP模型

MEXMA-SigLIP是一個高性能的零樣本圖像分類模型，它結合了多語言文本編碼器和圖像編碼器，支持80種語言，在相關數據集上表現出色。

🚀 快速開始

模型概述

MEXMA-SigLIP結合了 MEXMA 多語言文本編碼器和 SigLIP 模型中的圖像編碼器。這使我們能夠獲得一個支持80種語言的高性能CLIP模型。MEXMA-SigLIP在 Crossmodal-3600 數據集上，在商業友好型模型中達到了最先進的水平。

支持語言

屬性	詳情
支持語言	ar、kn、ka、af、kk、am、km、ky、ko、as、lo、az、ml、mr、be、mk、bn、my、bs、nl、bg、ca、no、cs、ne、ku、pl、cy、pt、da、ro、de、ru、el、sa、en、si、eo、sk、et、sl、eu、sd、fi、so、fr、es、gd、sr、ga、su、gl、sv、gu、sw、ha、ta、he、te、hi、th、hr、tr、hu、ug、hy、uk、id、ur、is、vi、it、xh、jv、zh、ja
模型類型	zero-shot-image-classification
新版本	visheratin/mexma-siglip2

使用示例

基礎用法

from transformers import AutoModel, AutoTokenizer, AutoImageProcessor
from PIL import Image
import requests
import torch

model = AutoModel.from_pretrained("visheratin/mexma-siglip", torch_dtype=torch.bfloat16, trust_remote_code=True, optimized=True).to("cuda")
tokenizer = AutoTokenizer.from_pretrained("visheratin/mexma-siglip")
processor = AutoImageProcessor.from_pretrained("visheratin/mexma-siglip")

img = Image.open(requests.get("https://static.independent.co.uk/s3fs-public/thumbnails/image/2014/03/25/12/eiffel.jpg", stream=True).raw)
img = processor(images=img, return_tensors="pt")["pixel_values"]
img = img.to(torch.bfloat16).to("cuda")
with torch.inference_mode():
    text = tokenizer(["кошка", "a dog", "एफिल टॉवर"], return_tensors="pt", padding=True).to("cuda")
    image_logits, text_logits = model.get_logits(text["input_ids"], text["attention_mask"], img)
    probs = image_logits.softmax(dim=-1)
    print(probs)