U

Unime LLaVA 1.6 7B

由DeepGlint-AI開發
UniME是一個基於多模態大模型的通用嵌入學習模型,採用336×336圖像分辨率訓練,在MMEB排行榜上位列第一。
下載量 188
發布時間 : 4/25/2025

模型概述

UniME通過文本判別知識蒸餾和困難負樣本增強的指令調優方法,增強多模態大模型的嵌入能力,適用於跨模態檢索任務。

模型特點

文本判別知識蒸餾
通過KL散度對齊學生模型與教師模型在批次相似度分佈上的嵌入,僅微調LLM組件,其餘參數全部凍結。
困難負樣本增強
採用相似度閾值的假陰性過濾機制消除誤導樣本,並自動選擇top-k相似但不匹配樣本增加訓練難度。
高分辨率訓練
採用336×336圖像分辨率訓練,提升視覺細節捕捉能力。

模型能力

跨模態檢索
圖像理解
文本理解
嵌入學習

使用案例

跨模態檢索
圖像-文本匹配
計算圖像與文本描述之間的相似度
在MMEB評測中取得優異表現
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase