T

Tinyllava Phi 2 SigLIP 3.1B

由tinyllava開發
TinyLLaVA-Phi-2-SigLIP-3.1B是一個3.1B參數規模的小型大規模多模態模型,結合了Phi-2語言模型和SigLIP視覺模型,性能超越部分7B模型。
下載量 4,295
發布時間 : 5/15/2024

模型概述

該模型是一個圖像文本到文本的多模態模型,能夠處理圖像和文本的聯合輸入,生成相應的文本輸出。

模型特點

高效性能
3.1B參數規模的模型性能超越部分7B模型,如LLaVA-1.5和Qwen-VL。
多模態能力
能夠同時處理圖像和文本輸入,生成連貫的文本輸出。
模塊化設計
基於TinyLLaVA Factory代碼庫,支持靈活的模型組件替換和擴展。

模型能力

圖像理解
文本生成
多模態推理
視覺問答

使用案例

視覺問答
圖像內容問答
根據輸入的圖像回答相關問題
在VQAv2數據集上達到80.1的準確率
多模態對話
圖像引導對話
基於圖像內容進行自然語言對話
在MM-VET評估中達到37.5的分數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase