I

Internvit 6B 448px V2 5

由 OpenGVLab 开发
InternViT-6B-448px-V2_5是基于InternViT-6B-448px-V1-5的重大升级版本,通过ViT增量学习与NTP损失提升了视觉特征提取能力,特别擅长处理多语言OCR数据和数学图表等复杂场景。
下载量 711
发布时间 : 11/22/2024

模型简介

该模型是一个强大的视觉特征提取器,采用ViT-MLP-LLM架构,支持动态高分辨率处理单图像、多图像和视频数据,适用于构建多模态大语言模型(MLLM)。

模型特点

ViT增量学习
通过阶段1.5的增量预训练,显著提升了在罕见领域(如多语言OCR和数学图表)的特征提取能力
动态高分辨率处理
支持灵活处理单图像、多图像和视频数据,最大块数n_max可动态分配给不同输入类型
多模态支持
保留与InternVL 1.5和2.0相同的架构,整合了增量预训练的InternViT与多个LLM,适合构建MLLM

模型能力

图像特征提取
多模态对齐
动态分辨率处理
多图像分析
视频帧处理

使用案例

多模态应用
多语言OCR
处理网络数据集中代表性不足的多语言文本识别
提升在多语言场景下的特征提取能力
数学图表理解
解析复杂的数学公式和图表
增强在专业领域的视觉表示能力
计算机视觉
图像分类
在ImageNet等数据集上进行图像分类
在IN-1K验证集及多个变体上表现优异
语义分割
在ADE20K和COCO-Stuff-164K上进行语义分割
支持线性探测、头部调优和全调优三种配置
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase