L

Llava Phi2

由RaviNaik開發
Llava-Phi2是基於Phi2的多模態實現,結合了視覺和語言處理能力,適用於圖像文本到文本的任務。
下載量 153
發布時間 : 1/24/2024

模型概述

該模型結合了Phi2語言模型和CLIP視覺模塊,能夠處理圖像和文本的聯合任務,如視覺問答和圖像描述生成。

模型特點

多模態能力
結合視覺和語言處理能力,能夠理解和生成與圖像相關的文本。
高效的小型模型
基於Phi2,參數量較小但性能高效,適合資源有限的環境。
預訓練與微調結合
使用大規模預訓練數據集和精細微調數據集,提升模型性能。

模型能力

視覺問答
圖像描述生成
多模態推理

使用案例

視覺問答
圖像內容問答
回答關於圖像內容的自然語言問題。
能夠準確回答關於圖像中對象、場景和動作的問題。
圖像描述生成
自動圖像標註
為圖像生成自然語言描述。
生成流暢且準確的圖像描述。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase