LLaVA-UHD-v2-Vicuna-7B开源多模态模型 - 捕捉不同视觉粒度超实用！

Home

Llava UHD V2 Vicuna 7B

Developed by YipengZhang

LLaVA-UHD v2 是一款先进的多模态大语言模型，围绕分层窗口变换器构建，能够通过高分辨率特征金字塔捕捉不同视觉粒度。

多模态融合

Transformers

#高分辨率视觉理解 #多模态大语言模型 #特征金字塔集成

Downloads 103

Release Time : 11/26/2024

Model Overview

主要用于大型多模态模型和聊天机器人的研究，适用于计算机视觉、自然语言处理等领域。

Model Features

高分辨率特征金字塔

通过构建和集成高分辨率特征金字塔来捕捉不同的视觉粒度

分层窗口变换器

采用创新的分层窗口变换器架构，优化多模态处理能力

大规模多模态训练

使用超过858k的混合数据集进行监督微调，提升模型性能

Model Capabilities

多模态理解

视觉-语言交互

高分辨率图像分析

自然语言生成

Use Cases

学术研究

多模态模型研究

用于探索视觉与语言结合的先进模型架构

聊天机器人开发

构建具备视觉理解能力的智能对话系统

工业应用

智能内容分析

对图像和文本内容进行联合分析理解

🚀 LLaVA-UHD v2 模型卡片

LLaVA-UHD v2 是一款先进的多模态大语言模型（MLLM），它围绕分层窗口变换器构建，能够通过构建和集成高分辨率特征金字塔来捕捉不同的视觉粒度，主要用于大模态模型和聊天机器人的研究。

📚 详细文档

模型详情

属性	详情
模型类型	LLaVA-UHD v2 是一款先进的多模态大语言模型（MLLM），围绕分层窗口变换器构建，可通过构建和集成高分辨率特征金字塔来捕捉不同的视觉粒度。
模型日期	LLaVA-UHD v2 于 2024 年 11 月完成训练。
基础大语言模型	lmsys/vicuna-7b-v1.5
更多信息的论文或资源	https://github.com/thunlp/LLaVA-UHD

许可证

问题反馈

若你对该模型有任何问题或建议，可前往 https://github.com/thunlp/LLaVA-UHD/issues 反馈。

预期用途

主要预期用途：LLaVA-UHD v2 主要用于大型多模态模型和聊天机器人的研究。
主要目标用户：该模型的主要目标用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

训练数据集

VDIM 预训练：MS-COCO stuff 2017
预训练：LLaVA-Pretrain 558K（从 LAION/CC/SBU 中筛选的图像 - 文本对，由 BLIP 加了标题）
监督微调（SFT）：https://huggingface.co/datasets/YipengZhang/LLaVA-UHD-v2-SFT-Data 中的 858k 混合数据集

引用信息

如果您发现 LLaVA-UHD v2 对您的研究和应用有帮助，请使用以下 BibTeX 进行引用：

@article{zhang2024llavauhdv2,
  title={LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer},
  author={Yipeng Zhang and Yifan Liu and Zonghao Guo and Yidan Zhang and Xuesong Yang and Chi Chen and Jun Song and Bo Zheng and Yuan Yao and Zhiyuan Liu and Tat-Seng Chua and Maosong Sun},
  journal={arXiv preprint arXiv:2412.13871},
  year={2024}
}