C

Convllava JP 1.3b 1280

由toshi456開發
ConvLLaVA-JP是一款支持高分辨率輸入的日語視覺語言模型,能夠就輸入圖像進行對話。
下載量 31
發布時間 : 6/14/2024

模型概述

該模型結合了圖像編碼器和文本解碼器,支持1280x1280高分辨率輸入,能夠進行圖像描述生成和視覺問答等任務。

模型特點

高分辨率支持
支持1280x1280高分辨率圖像輸入,能夠捕捉更豐富的視覺細節
多階段訓練
採用三階段訓練策略,先訓練視覺投影器,再聯合訓練圖像編碼器和語言模型,最後進行微調
日語優化
專門針對日語進行訓練和優化,在日語視覺語言任務上表現良好

模型能力

圖像描述生成
視覺問答
圖像對話
高分辨率圖像理解

使用案例

圖像理解
圖像內容描述
對輸入圖像生成詳細的日語描述
能夠準確識別圖像中的物體及其關係
視覺問答
回答關於圖像內容的日語問題
在JA-VG-VQA-500和JA-VLM-Bench-In-the-Wild等基準測試中表現良好
人機交互
基於圖像的對話系統
與用戶就圖像內容進行自然語言對話
能夠理解複雜問題並給出相關回答
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase