ViTamin-XL-384px開源視覺語言模型 - 支持高分辨率圖像與多模態特徵提取

首頁

Vitamin XL 384px

由jienengchen開發

ViTamin-XL-384px 是一個基於 ViTamin 架構的大規模視覺語言模型，專為視覺語言任務設計，支持高分辨率圖像處理和多模態特徵提取。

圖像生成文本

Transformers

開源協議:MIT #多模態視覺語言 #高分辨率圖像處理 #開放詞彙識別

下載量 104

發布時間 : 4/2/2024

模型概述

ViTamin-XL-384px 是一個視覺語言模型，主要用於圖像特徵提取和文本-圖像匹配任務。它基於 ViTamin 架構，支持高分辨率圖像輸入（384px），並在多個視覺任務中表現出色。

模型特點

高分辨率支持

支持高達384px的圖像輸入，能夠處理更精細的圖像細節。

多模態特徵提取

能夠同時提取圖像和文本特徵，支持跨模態匹配任務。

高效訓練

在DataComp-1B等大規模數據集上預訓練，具有優秀的泛化能力。

下游任務適配

在開放詞彙檢測、分割和多模態理解等任務中表現優異。

模型能力

圖像特徵提取

文本-圖像匹配

開放詞彙檢測

開放詞彙分割

多模態理解

使用案例

計算機視覺

開放詞彙目標檢測

在未見過的類別上進行目標檢測

OV-COCO (AP50新穎) 37.5，OV-LVIS (APr) 35.6

開放詞彙圖像分割

對圖像進行語義分割，支持新類別識別

ADE 27.3 PQ，CityScapes 44.0 PQ

多模態應用

視覺問答

回答關於圖像內容的自然語言問題

VQAv2 78.9，GQA 61.6

圖像檢索

基於文本查詢檢索相關圖像

檢索任務平均得分61.8

🚀 ViTamin-XL-336px模型卡片

ViTamin的官方Hugging Face模型，來自以下2024年CVPR論文：

ViTamin: Design Scalable Vision Models in the Vision - language Era。
✨ Jieneng Chen，Qihang Yu，Xiaohui Shen，Alan Yuille 和 Liang - Chieh Chen
🏠 約翰霍普金斯大學，字節跳動

🚀 快速開始

可以使用transformers.AutoModel從Hugging Face加載模型：

import torch
import open_clip
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor
device = "cuda" if torch.cuda.is_available() else "cpu"

model = AutoModel.from_pretrained(
    'jienengchen/ViTamin-XL-384px',
    trust_remote_code=True).to(device).eval()

image = Image.open('./image.png').convert('RGB')
image_processor = CLIPImageProcessor.from_pretrained('jienengchen/ViTamin-XL-384px')

pixel_values = image_processor(images=image, return_tensors='pt').pixel_values
pixel_values = pixel_values.to(torch.bfloat16).cuda()

tokenizer = open_clip.get_tokenizer('hf-hub:laion/CLIP-ViT-L-14-DataComp.XL-s13B-b90K')
text = tokenizer(["a photo of vitamin", "a dog", "a cat"]).to(device)

with torch.no_grad(), torch.cuda.amp.autocast():
    image_features, text_features, logit_scale = model(pixel_values, text)
    text_probs = (100.0 * image_features @ text_features.to(torch.float).T).softmax(dim=-1)

print("Label probs:", text_probs)

✨ 主要特性

基於DataComp - 1B的CLIP預訓練主要結果

圖像編碼器	圖像尺寸	塊數量	文本編碼器深度/寬度	可見樣本數（B）	可訓練參數（圖像+文本，M）	MACs（圖像+文本，G）	ImageNet準確率	38個數據集平均準確率	ImageNet分佈偏移準確率	VTAB	檢索準確率
ViTamin - L	224	196	12/768	12.8	333.3+123.7	72.6+6.6	80.8	66.7	69.8	65.3	60.3
ViTamin - L	256	256	12/768	12.8+0.2	333.4+123.7	94.8+6.6	81.2	67.0	71.1	65.3	61.2
ViTamin - L	336	441	12/768	12.8+0.2	333.6+123.7	163.4+6.6	81.6	67.0	72.1	64.4	61.6
ViTamin - L	384	576	12/768	12.8+0.2	333.7+123.7	213.4+6.6	81.8	67.2	72.4	64.7	61.8
ViTamin - L2	224	196	24/1024	12.8	333.6+354.0	72.6+23.3	80.9	66.4	70.6	63.4	61.5
ViTamin - L2	256	256	24/1024	12.8+0.5	333.6+354.0	94.8+23.3	81.5	67.4	71.9	64.1	63.1
ViTamin - L2	336	441	24/1024	12.8+0.5	333.8+354.0	163.4+23.3	81.8	67.8	73.0	64.5	63.6
ViTamin - L2	384	576	24/1024	12.8+0.5	334.0+354.0	213.4+23.3	82.1	68.1	73.4	64.8	63.7
ViTamin - XL	256	256	27/1152	12.8+0.5	436.1+488.7	125.3+33.1	82.1	67.6	72.3	65.4	62.7
ViTamin - XL	384	576	27/1152	12.8+0.5	436.1+488.7	281.9+33.1	82.6	68.1	73.6	65.6	63.8
ViTamin - XL	256	256	27/1152	40	436.1+488.7	125.3+33.1	82.3	67.5	72.8	64.0	62.1
ViTamin - XL	336	441	27/1152	40+1	436.1+488.7	215.9+33.1	82.7	68.0	73.9	64.1	62.6
ViTamin - XL	384	576	27/1152	40+1	436.1+488.7	281.9+33.1	82.9	68.1	74.1	64.0	62.5

下游任務主要結果

開放詞彙檢測

圖像編碼器	檢測器	OV - COCO（AP₅₀^novel）	OV - LVIS（AP_r）
ViT - L/14	Sliding F - ViT	36.1	32.5
ViTamin - L	Sliding F - ViT	37.5	35.6

開放詞彙分割

圖像編碼器	分割器	ADE	Cityscapes	MV	A - 150	A - 847	PC - 459	PC - 59	PAS - 21
ViT - L/14	Sliding FC - CLIP	24.6	40.7	16.5	31.8	14.3	18.3	55.1	81.5
ViTamin - L	Sliding FC - CLIP	27.3	44.0	18.2	35.6	16.1	20.4	58.4	83.4

注意：全景數據集（ADE、CityScapes、MV）使用PQ指標。語義數據集（A - 150、A - 847、PC - 459、PC - 59、PAS - 21）使用mIoU指標。

大型多模態模型

圖像編碼器	圖像尺寸	VQAv2	GQA	VizWiz	SQA	T - VQA	POPE	MME	MM - Bench	MM - B - CN	SEED	LLaVA - Wild	MM - Vet
ViTamin - L	336	78.4	61.6	51.1	66.9	58.7	84.6	1421	65.4	58.4	57.7	64.5	33.6
ViTamin - L	384	78.9	61.6	55.4	67.6	59.8	85.5	1447	64.5	58.3	57.9	66.1	33.6

📄 許可證

本項目採用MIT許可證。

📚 詳細文檔

引用ViTamin

@inproceedings{chen2024vitamin,
  title={ViTamin: Design Scalable Vision Models in the Vision-language Era},
  author={Chen, Jieneng and Yu, Qihang and Shen, Xiaohui and Yuille, ALan and Chen, Liang-Chieh},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2024}
}