I

Internvl3 9B AWQ

由 OpenGVLab 开发
InternVL3-9B是InternVL3系列中的一款多模态大语言模型,具备卓越的多模态感知与推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种应用场景。
下载量 214
发布时间 : 4/17/2025

模型简介

InternVL3-9B采用'ViT-MLP-LLM'架构,整合了InternViT视觉编码器和InternLM3语言模型,通过原生多模态预训练方法实现强大的多模态理解与生成能力。

模型特点

原生多模态预训练
采用统一训练方案同时学习语言和多模态表示,无需单独的校准或桥接模块
可变视觉位置编码(V2PE)
支持更好的长上下文理解能力
混合偏好优化(MPO)
通过正负样本监督提升推理性能
多模态扩展能力
支持工具使用、GUI操作、3D视觉感知等多样化应用

模型能力

多模态推理
数学计算
OCR识别
图表理解
文档分析
多图像理解
视频理解
GUI定位
空间推理
多语言理解

使用案例

工业应用
工业图像分析
用于工业场景中的缺陷检测和质量控制
交互应用
GUI代理
自动化GUI操作和界面理解
3D应用
3D场景理解
理解和分析3D场景信息
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase