U

Unime LLaVA OneVision 7B

由DeepGlint-AI開發
UniME是一個基於多模態大模型的通用嵌入學習框架,通過文本判別知識蒸餾和硬負樣本增強的指令調優策略,顯著提升了多模態嵌入能力。
下載量 376
發布時間 : 5/6/2025

模型概述

UniME旨在突破模態壁壘,通過創新的訓練方法增強多模態大模型的嵌入能力,在MMEB排行榜上表現優異。

模型特點

文本判別知識蒸餾
通過解耦大模型的LLM組件,使用提示語處理文本,並基於KL散度對齊學生模型與教師模型的嵌入向量,僅微調LLM組件。
硬負樣本增強
採用基於相似度閾值的假負樣本過濾機制和自動選擇top-k相似但不匹配樣本的策略,增加訓練難度,提升模型性能。
多模態嵌入優化
通過提升視覺敏感性、強化跨模態對齊和增強指令跟隨能力來優化多模態系統。

模型能力

多模態嵌入學習
圖像文本理解
跨模態檢索
文本總結

使用案例

信息檢索
跨模態檢索
根據圖像檢索相關文本描述,或根據文本檢索相關圖像
在MMEB評測中表現優異
內容理解
圖像內容總結
用簡潔詞語總結圖像內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase