Llava-Phi2開源多模態模型 - 支持圖像文本到文本任務，視覺語言處理佳

首頁

Llava Phi2

由RaviNaik開發

Llava-Phi2是基於Phi2的多模態實現，結合了視覺和語言處理能力，適用於圖像文本到文本的任務。

圖像生成文本

Transformers

英語開源協議:MIT #多模態問答 #輕量級LLM #圖像文本理解

下載量 153

發布時間 : 1/24/2024

模型概述

該模型結合了Phi2語言模型和CLIP視覺模塊，能夠處理圖像和文本的聯合任務，如視覺問答和圖像描述生成。

模型特點

多模態能力

結合視覺和語言處理能力，能夠理解和生成與圖像相關的文本。

高效的小型模型

基於Phi2，參數量較小但性能高效，適合資源有限的環境。

預訓練與微調結合

使用大規模預訓練數據集和精細微調數據集，提升模型性能。

模型能力

視覺問答

圖像描述生成

多模態推理

使用案例

視覺問答

圖像內容問答

回答關於圖像內容的自然語言問題。

能夠準確回答關於圖像中對象、場景和動作的問題。

圖像描述生成

自動圖像標註

為圖像生成自然語言描述。

生成流暢且準確的圖像描述。

屬性	詳情
模型類型	基於 Phi2 的多模態模型
訓練數據	預訓練數據：帶有 BLIP 字幕的 LAION - CC - SBU 數據集（200k 樣本）；微調數據：基於 COCO 的 150k 指令數據集

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Llava Phi2

模型概述

模型特點

模型能力

使用案例

🚀 模型 ID 的模型卡片

🚀 快速開始

✨ 主要特性

模型詳情

模型來源

致謝

📄 許可證