I

Internvl3 1B Instruct

Developed by OpenGVLab
InternVL3-1B-Instruct 是 InternVL3 系列的监督微调版本,基于原生多模态预训练,具备卓越的多模态感知和推理能力。
Downloads 705
Release Time : 4/16/2025

Model Overview

InternVL3-1B-Instruct 是一个先进的多模态大语言模型,支持图像、文本、视频等多种模态的联合理解与推理,适用于复杂的多模态任务。

Model Features

原生多模态预训练
将语言和视觉学习整合到单一的预训练阶段,增强多模态表示能力。
可变视觉位置编码(V2PE)
使用更小、更灵活的位置增量表示视觉标记,提升长上下文理解能力。
动态分辨率策略
将图像划分为 448×448 像素的图块,支持多图像和视频数据。
混合偏好优化(MPO)
通过正负样本的额外监督,提高模型的推理性能。

Model Capabilities

多模态推理
图像理解
文本生成
视频理解
OCR
图表理解
文档理解
GUI 定位
空间推理

Use Cases

多模态推理
复杂问题解答
结合图像和文本信息进行复杂问题的推理和解答。
在多项基准测试中表现优异。
文档理解
文档内容提取
从扫描文档或图像中提取文本和结构化信息。
支持高质量的 OCR 和文档分析。
GUI 操作
界面自动化
理解并操作图形用户界面(GUI)。
可用于自动化测试和辅助工具开发。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase