I

Internvit 6B 224px

由OpenGVLab開發
InternViT-6B-224px 是一個視覺基礎模型,專注於圖像特徵提取,具有5903百萬參數,支持224x224像素的圖像輸入。
下載量 160
發布時間 : 12/22/2023

模型概述

該模型是一個視覺基礎模型,主要用於圖像特徵提取,適用於多種視覺任務。

模型特點

大規模預訓練
模型在多個大規模數據集上進行預訓練,包括LAION-en、LAION-COCO、COYO等。
高性能特徵提取
在多種圖像分類任務上表現出色,如IN-1K、IN-ReaL等數據集。
倒數第四層特徵優化
使用倒數第四塊的輸出對於VLLM效果最佳,適合構建視覺語言模型。

模型能力

圖像特徵提取
視覺任務支持
大規模圖像處理

使用案例

圖像分類
ImageNet分類
在ImageNet-1K數據集上進行線性探測評估。
88.2%準確率
視覺語言模型
VLLM構建
使用倒數第四層的特徵構建視覺語言模型。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase