I

Internvit 6B 224px

由 OpenGVLab 开发
InternViT-6B-224px 是一个视觉基础模型,专注于图像特征提取,具有5903百万参数,支持224x224像素的图像输入。
下载量 160
发布时间 : 12/22/2023

模型简介

该模型是一个视觉基础模型,主要用于图像特征提取,适用于多种视觉任务。

模型特点

大规模预训练
模型在多个大规模数据集上进行预训练,包括LAION-en、LAION-COCO、COYO等。
高性能特征提取
在多种图像分类任务上表现出色,如IN-1K、IN-ReaL等数据集。
倒数第四层特征优化
使用倒数第四块的输出对于VLLM效果最佳,适合构建视觉语言模型。

模型能力

图像特征提取
视觉任务支持
大规模图像处理

使用案例

图像分类
ImageNet分类
在ImageNet-1K数据集上进行线性探测评估。
88.2%准确率
视觉语言模型
VLLM构建
使用倒数第四层的特征构建视觉语言模型。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase