I

Internvl3 2B Pretrained

Developed by OpenGVLab
InternVL3-2B是OpenGVLab推出的先进多模态大语言模型,具备强大的视觉语言理解和推理能力,支持多种多模态任务。
Downloads 61
Release Time : 4/17/2025

Model Overview

InternVL3-2B是一款基于Qwen2.5-1.5B和InternViT-300M-448px-V2_5合并的多模态大语言模型,已完成原生多模态预训练,展现出卓越的整体性能。

Model Features

原生多模态预训练
将语言和视觉学习整合到单一预训练阶段,增强多模态表示能力
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量,提升长上下文理解能力
混合偏好优化(MPO)
通过正负样本监督对齐模型响应分布,提高推理性能
动态分辨率处理
支持448×448像素的图块划分,适应不同尺寸输入

Model Capabilities

多模态推理
图像描述生成
文档理解
多图像分析
视频理解
GUI定位
空间推理
多语言理解

Use Cases

视觉内容分析
图像描述生成
为输入的图像生成详细描述
高质量的自然语言描述
多图像对比
分析多张图像的相似与不同之处
准确的对比分析结果
工业应用
工业图像分析
分析工业场景中的图像数据
准确的缺陷检测和分类
交互式应用
GUI代理
理解并操作图形用户界面
准确的界面元素识别和操作
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase