I

Internvl3 1B GGUF

由 unsloth 开发
InternVL3-1B是一款先进的多模态大语言模型,在多模态感知、推理等能力上表现出色,还拓展了工具使用、GUI代理等多模态能力。
下载量 868
发布时间 : 5/18/2025

模型简介

InternVL3-1B是一款多模态大语言模型,具备卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种应用场景。

模型特点

原生多模态预训练
将语言和视觉学习整合到一个预训练阶段,提高多模态任务处理能力。
可变视觉位置编码(V2PE)
为视觉标记使用更小、更灵活的位置增量,提升长上下文理解能力。
混合偏好优化(MPO)
通过偏好损失、质量损失和生成损失的组合,提升推理性能。
动态分辨率策略
将图像分割成448×448像素的图块,支持多图像和视频数据。

模型能力

多模态感知
多模态推理
工具使用
GUI代理
工业图像分析
3D视觉感知
视频理解
科学图表分析
创意写作
多模态多语言理解

使用案例

工业应用
工业图像分析
用于工业场景中的图像识别和分析任务。
GUI操作
GUI代理
支持自动化GUI操作和交互。
3D视觉
3D视觉感知
用于3D场景理解和分析。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase