MQT LLaVA 7b

M

MQT LLaVA 7b

由gordonhu開發

MQT-LLaVA是一個開源的多模態聊天機器人模型，基於Transformer架構，通過微調LLaMA/Vicuna在GPT生成的多模態指令數據上訓練而成。

文本生成圖像

#多模態指令跟隨 #學術VQA任務 #GPT生成數據微調

下載量 349

發布時間 : 5/28/2024

模型概述

MQT-LLaVA是一個用於多模態大模型和聊天機器人研究的開源模型，能夠處理圖像和文本輸入並生成文本輸出。

模型特點

開源模型

完全開源，可供研究和商業使用（遵循LLAMA 2許可證）

多模態處理能力

能夠同時處理圖像和文本輸入，生成連貫的文本響應

大規模訓練數據

使用了超過100萬條多模態訓練數據，包括圖像-文本對和指令數據

模型能力

多模態對話

視覺問答

圖像理解與描述

文本生成

指令跟隨

使用案例

學術研究

多模態大模型研究

用於探索視覺-語言聯合表示學習

聊天機器人開發

構建能夠理解圖像內容的對話系統

教育應用

視覺輔助學習

幫助學生通過圖像理解複雜概念

🚀 MQT-LLaVA模型卡片

MQT-LLaVA是一個開源聊天機器人模型，它基於Transformer架構，通過在GPT生成的多模態指令跟隨數據上微調LLaMA/Vicuna而得到。該模型可用於多模態大模型和聊天機器人的研究。

✨ 主要特性

開源模型：MQT-LLaVA是一個開源的聊天機器人模型。
多模態處理：能夠處理圖像和文本輸入，並生成相應的文本輸出。
基於Transformer架構：採用了Transformer架構，具有強大的語言理解和生成能力。

📦 安裝指南

文檔未提供安裝步驟，故跳過該章節。

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	MQT-LLaVA是一個通過在GPT生成的多模態指令跟隨數據上微調LLaMA/Vicuna而訓練的開源聊天機器人。它是一個基於Transformer架構的自迴歸語言模型。
模型日期	MQT-LLaVA-7B於2024年5月訓練。論文

許可證

Llama 2遵循LLAMA 2社區許可證，版權歸Meta Platforms, Inc.所有。

關於模型的問題或建議反饋地址： https://github.com/gordonhu608/MQT-LLaVA/issues

預期用途

主要預期用途： MQT-LLaVA的主要用途是用於多模態大模型和聊天機器人的研究。

主要目標用戶：該模型的主要目標用戶是計算機視覺、自然語言處理、機器學習和人工智能領域的研究人員和愛好者。

訓練數據集

來自LAION/CC/SBU的558K過濾後的圖像 - 文本對，由BLIP添加標題。
158K GPT生成的多模態指令跟隨數據。
450K面向學術任務的VQA混合數據。
40K ShareGPT數據。

評估數據集

包含11個基準測試的集合，其中包括4個學術VQA基準測試和7個最近專門為指令跟隨LMMs提出的基準測試。

💻 使用示例

文檔未提供代碼示例，故跳過該章節。

🔧 技術細節

文檔未提供具體的技術實現細節，故跳過該章節。

📄 許可證

Llama 2遵循LLAMA 2社區許可證，版權歸Meta Platforms, Inc.所有。用戶可在此處反饋關於模型的問題或建議。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase