LLaVA-UHD-v2-Vicuna-7B開源多模態模型 - 捕捉不同視覺粒度超實用！

首頁

Llava UHD V2 Vicuna 7B

由YipengZhang開發

LLaVA-UHD v2 是一款先進的多模態大語言模型，圍繞分層窗口變換器構建，能夠通過高分辨率特徵金字塔捕捉不同視覺粒度。

多模態融合

Transformers

#高分辨率視覺理解 #多模態大語言模型 #特徵金字塔集成

下載量 103

發布時間 : 11/26/2024

模型概述

主要用於大型多模態模型和聊天機器人的研究，適用於計算機視覺、自然語言處理等領域。

模型特點

高分辨率特徵金字塔

通過構建和集成高分辨率特徵金字塔來捕捉不同的視覺粒度

分層窗口變換器

採用創新的分層窗口變換器架構，優化多模態處理能力

大規模多模態訓練

使用超過858k的混合數據集進行監督微調，提升模型性能

模型能力

多模態理解

視覺-語言交互

高分辨率圖像分析

自然語言生成

使用案例

學術研究

多模態模型研究

用於探索視覺與語言結合的先進模型架構

聊天機器人開發

構建具備視覺理解能力的智能對話系統

工業應用

智能內容分析

對圖像和文本內容進行聯合分析理解

🚀 LLaVA-UHD v2 模型卡片

LLaVA-UHD v2 是一款先進的多模態大語言模型（MLLM），它圍繞分層窗口變換器構建，能夠通過構建和集成高分辨率特徵金字塔來捕捉不同的視覺粒度，主要用於大模態模型和聊天機器人的研究。

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	LLaVA-UHD v2 是一款先進的多模態大語言模型（MLLM），圍繞分層窗口變換器構建，可通過構建和集成高分辨率特徵金字塔來捕捉不同的視覺粒度。
模型日期	LLaVA-UHD v2 於 2024 年 11 月完成訓練。
基礎大語言模型	lmsys/vicuna-7b-v1.5
更多信息的論文或資源	https://github.com/thunlp/LLaVA-UHD

許可證

問題反饋

若你對該模型有任何問題或建議，可前往 https://github.com/thunlp/LLaVA-UHD/issues 反饋。

預期用途

主要預期用途：LLaVA-UHD v2 主要用於大型多模態模型和聊天機器人的研究。
主要目標用戶：該模型的主要目標用戶是計算機視覺、自然語言處理、機器學習和人工智能領域的研究人員和愛好者。

訓練數據集

VDIM 預訓練：MS-COCO stuff 2017
預訓練：LLaVA-Pretrain 558K（從 LAION/CC/SBU 中篩選的圖像 - 文本對，由 BLIP 加了標題）
監督微調（SFT）：https://huggingface.co/datasets/YipengZhang/LLaVA-UHD-v2-SFT-Data 中的 858k 混合數據集

引用信息

如果您發現 LLaVA-UHD v2 對您的研究和應用有幫助，請使用以下 BibTeX 進行引用：

@article{zhang2024llavauhdv2,
  title={LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer},
  author={Yipeng Zhang and Yifan Liu and Zonghao Guo and Yidan Zhang and Xuesong Yang and Chi Chen and Jun Song and Bo Zheng and Yuan Yao and Zhiyuan Liu and Tat-Seng Chua and Maosong Sun},
  journal={arXiv preprint arXiv:2412.13871},
  year={2024}
}