L

Llava Phi 2 3b

由marianna13開發
LLaVa-Phi-2-3B是一個開源的多模態聊天機器人模型,基於Phi-2架構微調而成,能夠處理圖像和文本輸入並生成自然語言響應。
下載量 153
發布時間 : 1/28/2024

模型概述

該模型通過微調Phi-2模型在多模態指令跟隨數據上訓練而成,具備視覺-語言理解能力,可用於圖像描述、視覺問答等任務。

模型特點

多模態理解
能夠同時處理圖像和文本輸入,理解視覺內容並生成相關響應
高效參數利用
僅3B參數規模下實現接近更大模型的性能表現
指令跟隨
經過專門訓練以遵循用戶指令,適合對話式交互

模型能力

圖像理解
視覺問答
圖像描述生成
多模態對話
指令跟隨

使用案例

教育
視覺輔助學習
幫助學生理解複雜圖表或圖像內容
無障礙技術
圖像描述服務
為視障用戶提供圖像內容的語音描述
內容審核
多模態內容分析
同時分析圖像和文本內容進行更全面的內容審核
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase