UniME-LLaVA-1.6 - 7Bオープンソース多モーダル埋め込みモデル、高解像度訓練でMMEB順位一位！

ホーム

Unime LLaVA 1.6 7B

DeepGlint-AIによって開発

UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習モデルで、336×336の画像解像度でトレーニングされ、MMEBランキングで1位を獲得しています。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #マルチモーダル埋め込み学習 #クロスモーダル検索 #知識蒸留

ダウンロード数 188

リリース時間 : 4/25/2025

モデル概要

UniMEはテキスト識別知識蒸留と困難な負例サンプル増強による命令チューニング手法を用いて、マルチモーダル大規模モデルの埋め込み能力を強化し、クロスモーダル検索タスクに適しています。

モデル特徴

テキスト識別知識蒸留

KLダイバージェンスを用いて学生モデルと教師モデルのバッチ類似度分布の埋め込みを整合させ、LLMコンポーネントのみを微調整し、その他のパラメータは全て凍結します。

困難な負例サンプル増強

類似度閾値による偽陰性フィルタリングメカニズムを使用して誤解を招くサンプルを除去し、自動的にトップkの類似だがマッチしないサンプルを選択してトレーニングの難易度を高めます。

高解像度トレーニング

336×336の画像解像度でトレーニングを行い、視覚的詳細の捕捉能力を向上させます。

モデル能力

クロスモーダル検索

画像理解

テキスト理解

埋め込み学習

使用事例

クロスモーダル検索

画像-テキストマッチング

画像とテキスト記述間の類似度を計算

MMEB評価で優れたパフォーマンスを発揮

🚀 モダリティの壁を打ち破る：マルチモーダルLLMによる普遍的な埋め込み学習

UniMEは、336×336の画像解像度で学習することで、MMEBリーダーボードでトップランキングを達成しました。（スクリーンショットは2025年5月6日UTC+8 08:00に撮影されました。）

🏡 プロジェクトページ | 📄 論文 | 💻 Github

🚀 クイックスタート

git clone https://github.com/deepglint/UniME.git
cd UniME
conda create -n uniME python=3.10 -y
conda activate uniME
pip install -r requirements.txt

import torch
from PIL import Image
from torch.nn import functional as F
from transformers import LlavaNextProcessor, LlavaNextForConditionalGeneration


base_model_path="DeepGlint-AI/UniME-LLaVA-1.6-7B"
img_prompt = "[INST] <image>\nSummary above image in one word: [/INST]"
text_prompt = "[INST] <sent>\nSummary above sentence in one word: [/INST]"

text = "A man is crossing the street with a red car parked nearby."
image_path = "figures/demo.png"
input_texts = text_prompt.replace('<sent>', text)
input_image_prompt = img_prompt
input_image = [Image.open(image_path)]

transform = LlavaNextProcessor.from_pretrained(base_model_path)
model = LlavaNextForConditionalGeneration.from_pretrained(base_model_path, device_map="cuda", torch_dtype=torch.float16, low_cpu_mem_usage=True) 
transform.tokenizer.padding_side = "left"
transform.tokenizer.padding = True

inputs_text = transform(text=input_texts,
                    images=None,
                    return_tensors="pt", 
                    padding=True)
for key in inputs_text: inputs_text[key] = inputs_text[key].to("cuda")
inputs_image = transform(text=input_image_prompt,
                    images=input_image, 
                    return_tensors="pt", 
                    padding=True).to("cuda")

with torch.no_grad():
  emb_text = model(**inputs_text, output_hidden_states=True, return_dict=True).hidden_states[-1][:, -1, :]
  emb_image = model(**inputs_image, output_hidden_states=True, return_dict=True).hidden_states[-1][:, -1, :]
  emb_text = F.normalize(emb_text, dim=-1)
  emb_image = F.normalize(emb_image, dim=-1)
  Score = emb_image @ emb_text.T
print("Score: ", Score)

✨ 主な機能

テキスト判別的知識蒸留

MLLMの埋め込み能力を強化するために、テキスト判別的知識蒸留を提案します。学習プロセスでは、MLLMのLLMコンポーネントを切り離し、「上記の文章を一言で要約してください。」というプロンプトでテキストを処理し、その後、バッチ単位の類似度分布に対するKLダイバージェンスを介して、学生（MLLM）と教師（NV-Embed V2）の埋め込みをアライメントします。このプロセスでは、LLMコンポーネントのみが微調整され、他のすべてのパラメータは凍結されたままです。

ハードネガティブ強化命令微調整

その後、ハードネガティブ強化命令微調整を提案します。これは、視覚的な感度を向上させ、クロスモーダルアライメントを強化し、命令追従能力を向上させることで、マルチモーダルシステムを強化します。その核心には2つの重要な革新があります。1つは、類似度閾値を使用して誤ったネガティブサンプルをフィルタリングする機構で、もう1つは、トップkの類似しているが一致しない例を選択して学習の難易度を上げる自動ハードネガティブサンプリング戦略です。

🔢 結果

多様な検索

MMEB

📚 ドキュメント

著者

Tiancheng Gu*、 Kaicheng Yang*、 Ziyong Feng、 Xingjun Wang、 Yanzhao Zhang、 Dingkun Long、 Yingda Chen、 Weidong Cai、 Jiankang Deng

引用

このリポジトリが役に立った場合は、以下のBibTeXエントリを使用して引用してください。

@misc{gu2025breakingmodalitybarrieruniversal,
      title={Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs}, 
      author={Tiancheng Gu and Kaicheng Yang and Ziyong Feng and Xingjun Wang and Yanzhao Zhang and Dingkun Long and Yingda Chen and Weidong Cai and Jiankang Deng},
      year={2025},
      eprint={2504.17432},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.17432}, 
}

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

詳細情報

属性	详情
モデルタイプ	image-text-to-text
訓練データ	TIGER-Lab/MMEB-train
評価指標	recall
ベースモデル	llava-hf/llava-v1.6-mistral-7b-hf
ライブラリ名	transformers