L

Llave 7B

Developed by zhibinlan
LLaVE-7B是基於LLaVA-OneVision-7B模型的70億參數多模態嵌入模型,具備文本、圖像、多圖像和視頻的嵌入表示能力。
Downloads 1,389
Release Time : 2/9/2025

Model Overview

LLaVE-7B是一個多模態嵌入模型,能夠處理文本、圖像、多圖像和視頻的嵌入表示,在MMEB排行榜上表現優異,並展現出強大的遷移學習能力。

Model Features

多模態嵌入能力
能夠同時對文本、圖像、多圖像和視頻進行嵌入表示
卓越性能
僅使用66.2萬訓練樣本就在MMEB上實現了最先進的性能
強大的遷移能力
雖然在圖文數據上訓練,但能零樣本泛化到文本-視頻檢索任務
高效訓練
僅使用少量數據就取得優異表現

Model Capabilities

文本嵌入表示
圖像嵌入表示
多圖像嵌入表示
視頻嵌入表示
跨模態檢索
零樣本遷移學習

Use Cases

信息檢索
跨模態檢索
根據文本查詢檢索相關圖像或視頻
在MMEB排行榜上取得首位
內容理解
圖像內容理解
理解圖像內容並生成相關文本表示
能準確區分圖像中的不同對象
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase