V

Vitamin XL 256px

由jienengchen開發
ViTamin-XL-256px是基於ViTamin架構的視覺語言模型,專為高效視覺特徵提取和多模態任務設計,支持高分辨率圖像處理。
下載量 655
發布時間 : 4/8/2024

模型概述

ViTamin-XL-256px是一個可擴展的視覺模型,結合了視覺和語言處理能力,適用於圖像分類、開放詞彙檢測、分割及多模態任務。

模型特點

高分辨率支持
支持256px至384px的圖像分辨率,適應不同場景需求。
多任務性能優異
在ImageNet分類、開放詞彙檢測、分割及多模態任務中表現卓越。
可擴展架構
ViTamin設計允許靈活調整模型規模和計算量,平衡性能與效率。

模型能力

圖像特徵提取
文本特徵提取
多模態對齊
開放詞彙檢測
語義分割
視覺問答

使用案例

計算機視覺
圖像分類
對圖像進行高效分類,支持開放詞彙標籤。
ImageNet準確率82.1%(256px分辨率)
開放詞彙檢測
檢測圖像中未在訓練集中出現的新類別對象。
OV-COCO新類AP50達37.5%
多模態應用
視覺問答
結合圖像和文本輸入回答複雜問題。
VQAv2準確率78.4%
圖文檢索
實現跨模態的圖文匹配與檢索。
檢索性能指標61.2-63.8
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase