V

Vit Intern300m Patch14 448.ogvl Dist

Developed by timm
InternViT-300M是一個由OpenGVLab團隊開發的視覺Transformer模型,通過從InternViT-6B蒸餾預訓練而來,支持多種視覺任務。
Downloads 147
Release Time : 10/16/2024

Model Overview

該模型是一個基於ViT架構的圖像特徵提取模型,主要用於圖像分類和特徵提取任務,支持448x448分辨率的圖像輸入。

Model Features

高分辨率支持
支持448x448的高分辨率圖像輸入,適合需要精細視覺特徵的任務。
多數據集預訓練
在LAION-en/zh、COYO、GRIT等多個大型數據集上預訓練,具有強大的泛化能力。
蒸餾模型
從更大的InternViT-6B模型蒸餾而來,在保持性能的同時減小了模型規模。

Model Capabilities

圖像分類
視覺特徵提取
圖像嵌入生成

Use Cases

計算機視覺
圖像分類
對輸入圖像進行分類,識別圖像中的主要對象或場景。
在多個基準數據集上表現優異
視覺特徵提取
提取圖像的深度視覺特徵,可用於下游任務如目標檢測、圖像檢索等。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase