U

Unime LLaVA 1.6 7B

DeepGlint-AIによって開発
UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習モデルで、336×336の画像解像度でトレーニングされ、MMEBランキングで1位を獲得しています。
ダウンロード数 188
リリース時間 : 4/25/2025

モデル概要

UniMEはテキスト識別知識蒸留と困難な負例サンプル増強による命令チューニング手法を用いて、マルチモーダル大規模モデルの埋め込み能力を強化し、クロスモーダル検索タスクに適しています。

モデル特徴

テキスト識別知識蒸留
KLダイバージェンスを用いて学生モデルと教師モデルのバッチ類似度分布の埋め込みを整合させ、LLMコンポーネントのみを微調整し、その他のパラメータは全て凍結します。
困難な負例サンプル増強
類似度閾値による偽陰性フィルタリングメカニズムを使用して誤解を招くサンプルを除去し、自動的にトップkの類似だがマッチしないサンプルを選択してトレーニングの難易度を高めます。
高解像度トレーニング
336×336の画像解像度でトレーニングを行い、視覚的詳細の捕捉能力を向上させます。

モデル能力

クロスモーダル検索
画像理解
テキスト理解
埋め込み学習

使用事例

クロスモーダル検索
画像-テキストマッチング
画像とテキスト記述間の類似度を計算
MMEB評価で優れたパフォーマンスを発揮
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase