L

Llave 0.5B

由zhibinlan開發
LLaVE是基於LLaVA-OneVision-0.5B模型的多模態嵌入模型,參數規模為0.5B,能夠對文本、圖像、多圖像和視頻進行嵌入。
下載量 2,897
發布時間 : 2/6/2025

模型概述

LLaVE是一個多模態嵌入模型,能夠處理文本、圖像和視頻數據,支持句子相似度計算、零樣本圖像分類等任務。

模型特點

多模態嵌入
能夠同時對文本、圖像和視頻數據進行嵌入處理
高效性能
僅使用少量參數和訓練數據就在MMEB排行榜上取得優異表現
零樣本遷移能力
在圖像-文本數據上訓練,但能零樣本泛化到文本-視頻檢索任務

模型能力

文本嵌入
圖像嵌入
視頻嵌入
句子相似度計算
零樣本圖像分類
跨模態檢索

使用案例

圖像檢索
基於文本的圖像搜索
根據文本描述檢索相關圖像
在MMEB評估中表現優異
跨模態檢索
文本到視頻檢索
根據文本描述檢索相關視頻片段
零樣本情況下表現出強大性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase