L

Llava Gemma 2b

由Intel開發
LLaVA-Gemma-2b是基於LLaVA-v1.5框架訓練的大型多模態模型,採用20億參數的Gemma-2b-it作為語言主幹,結合CLIP視覺編碼器。
下載量 1,503
發布時間 : 3/14/2024

模型概述

該模型針對多模態基準評估進行了微調,可作為多模態聊天機器人使用,支持圖像和文本的交互。

模型特點

緊湊高效
採用20億參數的Gemma-2b-it作為語言主幹,在保持性能的同時降低計算資源需求。
多模態理解
結合CLIP視覺編碼器,能夠同時處理圖像和文本輸入,實現跨模態理解。
快速訓練
在8個英特爾Gaudi 2 AI加速器上僅需4小時即可完成訓練。

模型能力

圖像描述生成
視覺問答
多模態對話
文本總結

使用案例

多模態聊天機器人
圖像內容問答
用戶上傳圖片並詢問相關內容,模型生成準確描述和回答。
在VQAv2基準測試中達到70.7的準確率
學術研究
多模態模型研究
為研究人員提供緊湊模型研究平臺,探索計算效率和多模態理解的平衡。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase