オープンソースUniME-Phi3.5-V-4.2Bモデル - モーダリティの壁を突破し、クロスモーダル検索と埋め込み学習を実現

ホーム

Unime Phi3.5 V 4.2B

DeepGlint-AIによって開発

UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習モデルで、モーダルの壁を打破し、クロスモーダル検索と埋め込み学習を実現することに焦点を当てています。

マルチモーダルアライメント

Transformers

英語オープンソースライセンス:MIT #マルチモーダル埋め込み #テキスト-画像検索 #知識蒸留

ダウンロード数 54

リリース時間 : 4/25/2025

モデル概要

UniMEはテキスト識別知識蒸留とハードネガティブサンプル増強の命令チューニング手法を使用し、マルチモーダル大規模モデルの埋め込み能力を強化し、画像とテキストのクロスモーダル検索をサポートします。

モデル特徴

テキスト識別知識蒸留

KLダイバージェンスを使用して学生モデルと教師モデルのバッチ類似度分布の埋め込みをアラインメントし、言語モデルコンポーネントのみを微調整し、残りのパラメータは凍結したままにします。

ハードネガティブサンプル増強の命令チューニング

類似度閾値の偽ネガティブサンプルフィルタリングメカニズムと自動ハードネガティブサンプルサンプリング戦略を使用し、視覚的感度を向上させ、クロスモーダルアラインメントを強化し、命令追従能力を高めます。

高解像度画像処理

336×336の画像解像度でのトレーニングをサポートし、マルチモーダル埋め込みベンチマークテストで優れたパフォーマンスを発揮します。

モデル能力

画像埋め込み

テキスト埋め込み

クロスモーダル検索

マルチモーダルアラインメント

使用事例

クロスモーダル検索

画像からテキストへの検索

画像の内容に基づいて関連するテキスト記述を検索します。

MMEBランキングで1位を獲得しました。

テキストから画像への検索

テキスト記述に基づいて関連する画像を検索します。

多様な検索タスクで優れたパフォーマンスを発揮します。

🚀 モダリティの壁を打ち破る：マルチモーダルLLMによる汎用埋め込み学習

UniMEは、336×336の画像解像度で学習することで、MMEBリーダーボードでトップランクを達成しました。（スクリーンショットは2025年5月6日UTC+8 08:00に取得）

🏡 プロジェクトページ | 📄 論文 | 💻 Github

🚀 クイックスタート

git clone https://github.com/deepglint/UniME.git
cd UniME
conda create -n uniME python=3.10 -y
conda activate uniME
pip install -r requirements.txt

import torch
from PIL import Image
from torch.nn import functional as F
from transformers import AutoProcessor, AutoModelForCausalLM

base_model_path="DeepGlint-AI/UniME-Phi3.5-V-4.2B"
img_prompt = '<|user|>\n<|image_1|>\nSummary above image in one word: <|end|>\n<|assistant|>\n'
text_prompt = '<|user|>\n<sent>\nSummary above sentence in one word: <|end|>\n<|assistant|>\n'

text = "A man is crossing the street with a red car parked nearby."
image_path = "figures/demo.png"
input_texts = text_prompt.replace('<sent>', text)
input_image_prompt = img_prompt
input_image = [Image.open(image_path)]

transform = AutoProcessor.from_pretrained(base_model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(base_model_path,device_map="cuda", trust_remote_code=True，torch_dtype=torch.float16, _attn_implementation='flash_attention_2')
transform.tokenizer.padding_side = "left"
transform.tokenizer.padding = True

inputs_text = transform(text=input_texts,
                    images=None,
                    return_tensors="pt", 
                    padding=True)
for key in inputs_text: inputs_text[key] = inputs_text[key].to("cuda")
inputs_image = transform(text=input_image_prompt,
                    images=input_image, 
                    return_tensors="pt", 
                    padding=True).to("cuda")

with torch.no_grad():
  emb_text = model(**inputs_text, output_hidden_states=True, return_dict=True).hidden_states[-1][:, -1, :]
  emb_image = model(**inputs_image, output_hidden_states=True, return_dict=True).hidden_states[-1][:, -1, :]
  emb_text = F.normalize(emb_text, dim=-1)
  emb_image = F.normalize(emb_image, dim=-1)
  Score = emb_image @ emb_text.T
print("Score: ", Score)

✨ 主な機能

テキスト判別的知識蒸留

MLLMの埋め込み能力を強化するために、テキスト判別的知識蒸留を提案します。学習プロセスでは、MLLMのLLMコンポーネントを分離し、「上記の文章を1単語で要約する」というプロンプトでテキストを処理し、その後、学生（MLLM）と教師（NV-Embed V2）の埋め込みをバッチ単位の類似度分布でKLダイバージェンスを介してアラインメントします。このプロセスでは、LLMコンポーネントのみが微調整され、他のすべてのパラメータは固定されたままです。

ハードネガティブ強化命令微調整

その後、ハードネガティブ強化命令微調整を提案します。これは、視覚的な感度を向上させ、クロスモーダルアラインメントを強化し、命令追従能力を向上させることで、マルチモーダルシステムを強化します。その核心には2つの重要な革新があります。1つは、類似度閾値を使用して誤ったネガティブサンプルを排除する誤ネガフィルタリングメカニズムで、もう1つは、トップkの類似しているが一致しない例を選択して学習の難易度を上げる自動ハードネガティブサンプリング戦略です。

🔢 結果

多様な検索

MMEB

📚 ドキュメント

このリポジトリが役に立った場合は、以下のBibTeXエントリを使用して引用してください。

@misc{gu2025breakingmodalitybarrieruniversal,
      title={Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs}, 
      author={Tiancheng Gu and Kaicheng Yang and Ziyong Feng and Xingjun Wang and Yanzhao Zhang and Dingkun Long and Yingda Chen and Weidong Cai and Jiankang Deng},
      year={2025},
      eprint={2504.17432},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2504.17432}, 
}

📄 ライセンス

このプロジェクトはMITライセンスの下でライセンスされています。

属性	详情
モデルタイプ	マルチモーダル埋め込み学習モデル
学習データ	TIGER-Lab/MMEB-train
ベースモデル	microsoft/Phi-3.5-vision-instruct
ライブラリ名	transformers
タグ	検索、マルチモーダル、埋め込み
パイプラインタグ	画像-テキストからテキスト