llava_next_mistral_7b_4096開源多模態模型 - 支持圖像文本聯合理解與生成

首頁

Llava Next Mistral 7b 4096

由Mantis-VL開發

基於LLaVA-v1.6-Mistral-7B模型微調的多模態模型，支持圖像和文本的聯合理解與生成

文本生成圖像

Transformers

#多模態對話 #長上下文處理 #視覺語言理解

下載量 40

發布時間 : 4/2/2024

模型概述

該模型是LLaVA系列的多模態模型變體，基於Mistral-7B架構，通過視覺-語言對齊訓練實現圖像理解和文本生成能力

模型特點

長上下文支持

支持4096 tokens的長上下文處理能力

多模態理解

能夠同時處理圖像和文本輸入，實現視覺-語言聯合理解

高效微調

基於預訓練模型進行高效微調，保持原有語言能力的同時增強視覺理解

模型能力

圖像內容理解

視覺問答

圖像描述生成

多模態對話

文本生成

使用案例

智能助手

視覺問答助手

回答用戶關於圖像內容的各類問題

內容生成

圖像描述生成

為圖像生成詳細的文字描述

屬性	詳情
基礎模型	llava-hf/llava-v1.6-mistral-7b-hf
標籤	generated_from_trainer

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Llava Next Mistral 7b 4096

模型概述

模型特點

模型能力

使用案例

🚀 llava_next_mistral_7b_4096

📚 詳細文檔

模型信息

訓練超參數

框架版本