V

Vsft Llava 1.5 7b Hf Trl

由HuggingFaceH4開發
基於LLaVA-1.5-7B模型通過視覺監督微調(VSFT)訓練的多模態視覺語言模型,支持圖像理解和對話生成
下載量 65
發布時間 : 4/11/2024

模型概述

該模型是一個開源聊天機器人,通過基於LLaMA/Vicuna在GPT生成的多模態指令跟隨數據上進行微調訓練而成,能夠理解圖像內容並進行自然語言對話

模型特點

多圖像支持
支持在單個提示中處理多張圖像,實現更復雜的多模態理解
指令跟隨
經過指令微調訓練,能夠遵循用戶指令進行詳細、有幫助的回答
視覺監督微調
使用26萬張圖像和對話對進行VSFT訓練,增強了視覺理解能力

模型能力

圖像內容理解
多模態對話生成
視覺問答
圖像描述生成

使用案例

教育
科學圖表解釋
幫助學生理解科學圖表中的標籤和概念
能準確識別圖表中的元素並解釋其含義
內容分析
圖像內容描述
為視覺障礙用戶生成圖像的詳細文字描述
提供準確且詳細的圖像內容描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase