MLCD-ViT-bigG開源模型 - 免費部署助力文檔理解與視覺問答任務

首頁

Mlcd Vit Bigg Patch14 448

由DeepGlint-AI開發

MLCD-ViT-bigG是一款採用二維旋轉位置編碼(RoPE2D)增強的先進視覺Transformer模型，在文檔理解和視覺問答任務中表現卓越。

文字識別

Safetensors

開源協議:MIT #文檔視覺問答 #二維旋轉位置編碼 #高精度視覺理解

下載量 1,517

發布時間 : 2/12/2025

模型概述

該模型由深度求索AI開發，採用二維旋轉位置編碼(RoPE2D)增強的視覺Transformer架構，專門用於處理複雜視覺-語言交互任務，在文檔理解和視覺問答方面表現出色。

模型特點

二維旋轉位置編碼(RoPE2D)

採用創新的二維旋轉位置編碼技術，增強了模型對空間位置信息的理解能力

卓越的文檔理解能力

在文檔理解和視覺問答任務中表現優於同類模型

高分辨率處理

支持448px高分辨率圖像輸入，能捕捉更精細的視覺特徵

模型能力

圖像特徵提取

文檔理解

視覺問答

圖表分析

OCR增強

使用案例

文檔處理

文檔問答

從複雜文檔中提取信息並回答問題

在DocVQA數據集上達到83.34%的準確率

表格理解

解析和理解文檔中的表格數據

視覺問答

圖表分析

理解和回答關於圖表的問題

在ChartQA數據集上達到73.80%的準確率

信息提取

從圖像中提取結構化信息

在InfoVQA數據集上達到46.59%的準確率

🚀 MLCD-ViT-bigG模型卡片

MLCD-ViT-bigG是一款先進的視覺Transformer模型，它採用了二維旋轉位置嵌入（RoPE2D）技術，在文檔理解和視覺問答任務中表現卓越。該模型由深醒科技（DeepGlint AI）研發，在處理複雜的視覺 - 語言交互方面展現出非凡的能力。

⚠️ 重要提示

LLaVA-NeXT 和 transformers 現在支持 MLCD-ViT-bigG-14-448px。

💡 使用建議

我們採用了官方的 LLaVA-NeXT 和官方訓練數據集 LLaVA-NeXT-Data 來評估基礎視覺模型。語言模型使用的是 Qwen2.5-7B。

✨ 主要特性

MLCD-ViT-bigG模型具有以下顯著特性：

採用2D Rotary Position Embedding (RoPE2D) 技術，提升模型性能。
在文檔理解和視覺問答任務中表現出色。
支持與 LLaVA-NeXT 和 transformers 集成。

📦 安裝指南

pip install torch transformers
git clone https://github.com/deepglint/unicom
cd unicom/mlcd

💻 使用示例

基礎用法

from vit_rope2d_hf import MLCDVisionModel
from transformers import CLIPImageProcessor
from PIL import Image
import requests
import torch

# Load model and processor
model = MLCDVisionModel.from_pretrained("DeepGlint-AI/mlcd-vit-bigG-patch14-448")
processor = CLIPImageProcessor.from_pretrained("DeepGlint-AI/mlcd-vit-bigG-patch14-448")

# Process single image
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

# Get visual features
with torch.no_grad():
    outputs = model(**inputs)
features = outputs.last_hidden_state

print(f"Extracted features shape: {features.shape}")

📚 詳細文檔

視覺塔	RoPE2D	ChartQA	DocVQA	InfoVQA	OCRBench	MMMU
CLIP (ViT-L-14-336px)	×	66.52	75.21	38.88	525.00	44.20
SigLIP (ViT-SO400M-384px)	×	69.28	76.71	41.38	554.00	46.78
DFN5B (ViT-H-14-378px)	×	64.36	70.87	38.59	473.00	48.00
MLCD (ViT-L-14-336px)	×	67.84	76.46	43.48	531.00	44.30
MLCD (ViT-bigG-14-336px)	√	71.07	79.63	44.38	572.00	46.78
MLCD (ViT-bigG-14-448px)	√	73.80	83.34	46.59	582.00	46.00

📄 許可證

本項目採用 MIT 許可證。

📚 引用

如果您在研究中使用了本模型，請使用以下 BibTeX 引用：

@inproceedings{anxiang_2024_mlcd,
  title={Multi-label Cluster Discrimination for Visual Representation Learning},
  author={An, Xiang and Yang, Kaicheng and Dai, Xiangzi and Feng, Ziyong and Deng, Jiankang},
  booktitle={ECCV},
  year={2024}
}