L

Llava Jp 1.3b V1.1

由toshi456開發
LLaVA-JP是一個支持日語的多模態視覺語言模型,能夠理解和生成關於輸入圖像的描述和對話。
下載量 90
發布時間 : 4/17/2024

模型概述

該模型結合視覺編碼器和文本解碼器,支持高分辨率圖像輸入,專門針對日語視覺語言任務優化。

模型特點

高分辨率支持
通過scaling_on_scales技術支持768x768高分辨率圖像輸入
日語優化
專門針對日語視覺語言任務進行訓練和優化
兩階段訓練
先預訓練視覺投影器,再進行指令微調

模型能力

圖像理解
日語圖像描述生成
日語視覺問答
多模態對話

使用案例

輔助技術
視覺輔助
為視障人士提供圖像內容描述
內容分析
社交媒體分析
自動分析社交媒體圖片內容並生成描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase