L

Llava Calm2 Siglip

由cyberagent開發
llava-calm2-siglip 是一個實驗性的視覺語言模型,能夠用日語和英語回答關於圖像的問題。
下載量 3,930
發布時間 : 6/12/2024

模型概述

該模型是基於LLaVA 1.5的視覺語言指令跟隨模型,採用calm2-7b-chat作為語言模型,siglip-so400m-patch14-384作為圖像編碼器。主要用於圖像理解和多語言對話任務。

模型特點

多語言支持
支持日語和英語兩種語言的圖像理解和對話
高性能視覺理解
在LLaVA野外基準測試和Heron基準測試中表現優異
兩階段訓練
第一階段學習MLP投影層,第二階段聯合微調語言模型和投影層

模型能力

圖像描述生成
多語言視覺問答
圖像內容理解
跨模態對話

使用案例

圖像理解
圖像內容描述
對圖像內容進行詳細描述,如識別物體、場景等
能準確描述圖像中的物體、場景和細節
視覺問答
基於圖像的問答
回答用戶關於圖像內容的問題
能準確回答關於圖像內容的各類問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase