llava-phi-2-3b開源多模態聊天機器人 - 支持圖文輸入生成自然語言回應

首頁

Llava Phi 2 3b

由marianna13開發

LLaVa-Phi-2-3B是一個開源的多模態聊天機器人模型，基於Phi-2架構微調而成，能夠處理圖像和文本輸入並生成自然語言響應。

文本生成圖像

Transformers

英語開源協議:MIT #多模態對話 #輕量級視覺語言模型 #指令跟隨優化

下載量 153

發布時間 : 1/28/2024

模型概述

該模型通過微調Phi-2模型在多模態指令跟隨數據上訓練而成，具備視覺-語言理解能力，可用於圖像描述、視覺問答等任務。

模型特點

多模態理解

能夠同時處理圖像和文本輸入，理解視覺內容並生成相關響應

高效參數利用

僅3B參數規模下實現接近更大模型的性能表現

指令跟隨

經過專門訓練以遵循用戶指令，適合對話式交互

模型能力

圖像理解

視覺問答

圖像描述生成

多模態對話

指令跟隨

使用案例

教育

視覺輔助學習

幫助學生理解複雜圖表或圖像內容

無障礙技術

圖像描述服務

為視障用戶提供圖像內容的語音描述

內容審核

多模態內容分析

同時分析圖像和文本內容進行更全面的內容審核

模型	參數	簡單問答(SQA)	通用問答(GQA)	文本視覺問答(TextVQA)	POPE
LLaVA-1.5	73億	68.0	62.0	58.3	85.3
MC-LLaVA-3B	30億	-	49.6	38.59	-
LLaVA-Phi	30億	68.4	-	48.6	85.0
moondream1	16億	-	56.3	39.8	-
llava-phi-2-3b	30億	69.0	51.2	47.0	86.0

模型	BLEU_1	BLEU_2	BLEU_3	BLEU_4	METEOR	ROUGE_L	CIDEr	SPICE
llava-1.5-7b	75.8	59.8	45	33.3	29.4	57.7	108.8	23.5
llava-phi-2-3b	67.7	50.5	35.7	24.2	27.0	52.4	85.0	20.7

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Llava Phi 2 3b

模型概述

模型特點

模型能力

使用案例

🚀 LLaVa-Phi-2-3B模型卡片

🚀 快速開始

✨ 主要特性

📚 詳細文檔

🔍 模型詳情

模型描述

模型資源

📊 評估

基準測試

圖像描述(MS COCO)

📄 許可證