🚀 MLCD-ViT-bigG模型卡片
MLCD-ViT-bigG是一款先进的视觉Transformer模型,它采用了二维旋转位置嵌入(RoPE2D)技术,在文档理解和视觉问答任务中表现卓越。该模型由深醒科技(DeepGlint AI)研发,在处理复杂的视觉 - 语言交互方面展现出非凡的能力。
⚠️ 重要提示
LLaVA-NeXT 和 transformers 现在支持 MLCD-ViT-bigG-14-448px。
💡 使用建议
我们采用了官方的 LLaVA-NeXT 和官方训练数据集 LLaVA-NeXT-Data 来评估基础视觉模型。语言模型使用的是 Qwen2.5-7B。
✨ 主要特性
MLCD-ViT-bigG模型具有以下显著特性:
📦 安装指南
pip install torch transformers
git clone https://github.com/deepglint/unicom
cd unicom/mlcd
💻 使用示例
基础用法
from vit_rope2d_hf import MLCDVisionModel
from transformers import CLIPImageProcessor
from PIL import Image
import requests
import torch
model = MLCDVisionModel.from_pretrained("DeepGlint-AI/mlcd-vit-bigG-patch14-448")
processor = CLIPImageProcessor.from_pretrained("DeepGlint-AI/mlcd-vit-bigG-patch14-448")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
features = outputs.last_hidden_state
print(f"Extracted features shape: {features.shape}")
📚 详细文档
视觉塔 |
RoPE2D |
ChartQA |
DocVQA |
InfoVQA |
OCRBench |
MMMU |
CLIP (ViT-L-14-336px) |
× |
66.52 |
75.21 |
38.88 |
525.00 |
44.20 |
SigLIP (ViT-SO400M-384px) |
× |
69.28 |
76.71 |
41.38 |
554.00 |
46.78 |
DFN5B (ViT-H-14-378px) |
× |
64.36 |
70.87 |
38.59 |
473.00 |
48.00 |
MLCD (ViT-L-14-336px) |
× |
67.84 |
76.46 |
43.48 |
531.00 |
44.30 |
MLCD (ViT-bigG-14-336px) |
√ |
71.07 |
79.63 |
44.38 |
572.00 |
46.78 |
MLCD (ViT-bigG-14-448px) |
√ |
73.80 |
83.34 |
46.59 |
582.00 |
46.00 |
📄 许可证
本项目采用 MIT 许可证。
📚 引用
如果您在研究中使用了本模型,请使用以下 BibTeX 引用:
@inproceedings{anxiang_2024_mlcd,
title={Multi-label Cluster Discrimination for Visual Representation Learning},
author={An, Xiang and Yang, Kaicheng and Dai, Xiangzi and Feng, Ziyong and Deng, Jiankang},
booktitle={ECCV},
year={2024}
}