V

Vitamin XL 384px

由jienengchen開發
ViTamin-XL-384px 是一個基於 ViTamin 架構的大規模視覺語言模型,專為視覺語言任務設計,支持高分辨率圖像處理和多模態特徵提取。
下載量 104
發布時間 : 4/2/2024

模型概述

ViTamin-XL-384px 是一個視覺語言模型,主要用於圖像特徵提取和文本-圖像匹配任務。它基於 ViTamin 架構,支持高分辨率圖像輸入(384px),並在多個視覺任務中表現出色。

模型特點

高分辨率支持
支持高達384px的圖像輸入,能夠處理更精細的圖像細節。
多模態特徵提取
能夠同時提取圖像和文本特徵,支持跨模態匹配任務。
高效訓練
在DataComp-1B等大規模數據集上預訓練,具有優秀的泛化能力。
下游任務適配
在開放詞彙檢測、分割和多模態理解等任務中表現優異。

模型能力

圖像特徵提取
文本-圖像匹配
開放詞彙檢測
開放詞彙分割
多模態理解

使用案例

計算機視覺
開放詞彙目標檢測
在未見過的類別上進行目標檢測
OV-COCO (AP50新穎) 37.5,OV-LVIS (APr) 35.6
開放詞彙圖像分割
對圖像進行語義分割,支持新類別識別
ADE 27.3 PQ,CityScapes 44.0 PQ
多模態應用
視覺問答
回答關於圖像內容的自然語言問題
VQAv2 78.9,GQA 61.6
圖像檢索
基於文本查詢檢索相關圖像
檢索任務平均得分61.8
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase