L

Llm Jp 3 Vila 14b

由llm-jp開發
由日本國立情報學研究所開發的大型視覺語言模型,支持日語和英語,具備強大的圖像理解和文本生成能力。
下載量 106
發布時間 : 10/26/2024

模型概述

這是一個結合視覺編碼器和大型語言模型的視覺語言模型,能夠理解圖像內容並生成相關文本描述或回答問題。

模型特點

多語言支持
同時支持日語和英語的視覺語言理解與生成
三階段訓練
採用分階段訓練策略,先調整投影層,再聯合訓練投影層和LLM,最後進行微調
高性能視覺編碼器
使用siglip-so400m-patch14-384作為視覺編碼器,提供強大的圖像理解能力
評估領先
在多個日語視覺語言基準測試中表現優於同類模型

模型能力

圖像內容理解
圖像描述生成
視覺問答
多模態對話

使用案例

內容理解與生成
圖像描述
為圖像生成詳細的文字描述
在Heron基準測試中獲得57.2%的LLM評分
視覺問答
回答關於圖像內容的自然語言問題
在JA-VG-VQA500測試中獲得3.62/5.0的LLM評分
多模態應用
圖文對話
基於圖像內容進行自然語言對話
在JA-VLM野外基準測試中獲得3.69/5.0的LLM評分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase