mexma - siglip2オープンソースマルチモーダルモデル - 80言語に対応した画像とテキストのマッチングアプリケーション

ホーム

Mexma Siglip2

visheratinによって開発

MEXMA-SigLIP2は、MEXMA多言語テキストエンコーダーとSigLIP2画像エンコーダーを組み合わせた高性能CLIPモデルで、80言語をサポートしています。

テキスト生成画像

Safetensors

複数言語対応オープンソースライセンス:MIT #多言語ゼロショット検索 #クロスモーダル高精度 #80言語対応

ダウンロード数 224

リリース時間 : 3/2/2025

モデル概要

このモデルはMEXMA多言語テキストエンコーダーとSigLIP2画像エンコーダーを統合し、クロスモーダル検索機能を実現しており、特にゼロショット画像分類タスクに優れています。

モデル特徴

多言語サポート

80言語をサポートし、アジア、ヨーロッパ、アフリカの多様な言語を含みます

高性能クロスモーダル検索

Crossmodal-3600データセットで新たな最先端レベルを達成

ゼロショット学習能力

タスク固有のファインチューニングなしで画像分類タスクを実行可能

モデル能力

ゼロショット画像分類

クロスモーダル検索

多言語テキスト理解

画像-テキストマッチング

使用事例

画像検索

多言語画像検索

異なる言語のクエリを使用して関連画像を検索

Crossmodal-3600データセットで62.54%の画像検索精度を達成

テキスト検索

画像関連テキスト検索

画像内容に基づいて関連するテキスト記述を検索

Crossmodal-3600データセットで59.99%のテキスト検索精度を達成

🚀 MEXMA-SigLIP2

MEXMA-SigLIP2は、多言語テキストエンコーダであるMEXMAと、SigLIP2モデルの画像エンコーダを組み合わせたモデルです。これにより、80言語に対応した高性能なCLIPモデルを実現しています。MEXMA-SigLIP2は、Crossmodal-3600データセットで画像検索のR@1が62.54%、テキスト検索のR@1が59.99%という新たな最先端の性能を達成しています。

🚀 クイックスタート

💻 使用例

基本的な使用法

# 元のコードとコメントを保持
from transformers import AutoModel, AutoTokenizer, AutoImageProcessor
from PIL import Image
import requests
import torch

model = AutoModel.from_pretrained("visheratin/mexma-siglip2", torch_dtype=torch.bfloat16, trust_remote_code=True, optimized=True).to("cuda")
tokenizer = AutoTokenizer.from_pretrained("visheratin/mexma-siglip2")
processor = AutoImageProcessor.from_pretrained("visheratin/mexma-siglip2")

img = Image.open(requests.get("https://static.independent.co.uk/s3fs-public/thumbnails/image/2014/03/25/12/eiffel.jpg", stream=True).raw)
img = processor(images=img, return_tensors="pt")["pixel_values"]
img = img.to(torch.bfloat16).to("cuda")
with torch.inference_mode():
    text = tokenizer(["кошка", "a dog", "एफिल टॉवर"], return_tensors="pt", padding=True).to("cuda")
    image_logits, text_logits = model.get_logits(text["input_ids"], text["attention_mask"], img)
    probs = image_logits.softmax(dim=-1)
    print(probs)

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

🔗 関連情報

プロパティ	詳細
パイプラインタグ	ゼロショット画像分類
サポート言語	ar, kn, ka, af, kk, am, km, ky, ko, as, lo, az, ml, mr, be, mk, bn, my, bs, nl, bg, ca, no, cs, ne, ku, pl, cy, pt, da, ro, de, ru, el, sa, en, si, eo, sk, et, sl, eu, sd, fi, so, fr, es, gd, sr, ga, su, gl, sv, gu, sw, ha, ta, he, te, hi, th, hr, tr, hu, ug, hy, uk, id, ur, is, vi, it, xh, jv, zh, ja