L

Llava Next Inst It Vicuna 7B

由Inst-IT開發
LLaVA-Next-Inst-It-Vicuna-7B 是一款在多模態實例級理解方面表現卓越的模型,通過顯式視覺提示指令調優增強多模態實例理解。
下載量 14
發布時間 : 12/5/2024

模型概述

該模型基於 LLaVA-NeXT 架構,結合 Vicuna-7B 語言模型,專注於多模態實例級理解任務,支持圖像和視頻的細粒度分析。

模型特點

多模態實例級理解
通過顯式視覺提示指令調優,增強對圖像和視頻中實例的細粒度理解能力。
支持 Set-of-Marks 視覺提示
可以利用 Set-of-Marks 視覺提示進行更精確的實例引用和分析。
視頻幀時間戳引用
支持通過時間戳引用視頻中的特定幀,實現時序感知的多模態理解。

模型能力

圖像實例級描述
視頻時序分析
多模態問答
細粒度視覺理解
開放式文本生成

使用案例

圖像理解
圖像實例描述
對圖像中的特定實例進行詳細描述,支持通過實例 ID 引用。
在 Inst-IT-Bench-I-OE 數據集上達到 68.6% 的準確率。
視頻理解
視頻時序分析
分析視頻中特定時間點的內容變化,支持時間戳引用。
在 Inst-IT-Bench-V-OE 數據集上達到 49.3% 的準確率。
多模態問答
圖像問答
回答關於圖像內容的複雜問題,包括實例級細節。
在 GQA 數據集上達到 65.9% 的準確率。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase