V

Vit Intern300m Patch14 448.ogvl Dist

由timm開發
InternViT-300M是一個由OpenGVLab團隊開發的視覺Transformer模型,通過從InternViT-6B蒸餾預訓練而來,支持多種視覺任務。
下載量 147
發布時間 : 10/16/2024

模型概述

該模型是一個基於ViT架構的圖像特徵提取模型,主要用於圖像分類和特徵提取任務,支持448x448分辨率的圖像輸入。

模型特點

高分辨率支持
支持448x448的高分辨率圖像輸入,適合需要精細視覺特徵的任務。
多數據集預訓練
在LAION-en/zh、COYO、GRIT等多個大型數據集上預訓練,具有強大的泛化能力。
蒸餾模型
從更大的InternViT-6B模型蒸餾而來,在保持性能的同時減小了模型規模。

模型能力

圖像分類
視覺特徵提取
圖像嵌入生成

使用案例

計算機視覺
圖像分類
對輸入圖像進行分類,識別圖像中的主要對象或場景。
在多個基準數據集上表現優異
視覺特徵提取
提取圖像的深度視覺特徵,可用於下游任務如目標檢測、圖像檢索等。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase