U

Unime LLaVA OneVision 7B

DeepGlint-AIによって開発
UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習フレームワークで、テキスト識別知識蒸留とハードネガティブサンプル増強の指示チューニング戦略により、マルチモーダル埋め込み能力を大幅に向上させています。
ダウンロード数 376
リリース時間 : 5/6/2025

モデル概要

UniMEはモーダルの壁を突破し、革新的なトレーニング方法によりマルチモーダル大規模モデルの埋め込み能力を強化し、MMEBランキングで優れたパフォーマンスを発揮しています。

モデル特徴

テキスト識別知識蒸留
大規模モデルのLLMコンポーネントを分離し、プロンプトを使用してテキストを処理し、KLダイバージェンスに基づいて学生モデルと教師モデルの埋め込みベクトルを整列させ、LLMコンポーネントのみを微調整します。
ハードネガティブサンプル増強
類似度閾値に基づく偽ネガティブサンプルフィルタリングメカニズムと、類似しているが一致しないトップkサンプルを自動選択する戦略を採用し、トレーニングの難易度を増し、モデルの性能を向上させます。
マルチモーダル埋め込み最適化
視覚的感度の向上、クロスモーダルアラインメントの強化、指示追従能力の強化により、マルチモーダルシステムを最適化します。

モデル能力

マルチモーダル埋め込み学習
画像テキスト理解
クロスモーダル検索
テキスト要約

使用事例

情報検索
クロスモーダル検索
画像に基づいて関連するテキスト記述を検索する、またはテキストに基づいて関連する画像を検索する
MMEB評価で優れたパフォーマンスを発揮
コンテンツ理解
画像内容要約
簡潔な言葉で画像内容を要約する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase