I

Internvl3 1B Pretrained

Developed by OpenGVLab
InternVL3-1B是OpenGVLab推出的先進多模態大語言模型,已完成原生多模態預訓練但未進行後訓練。
Downloads 18
Release Time : 4/17/2025

Model Overview

InternVL3-1B是基於InternViT和Qwen2.5架構的多模態大語言模型,支持圖像和文本的聯合理解與生成任務。

Model Features

原生多模態預訓練
採用統一訓練方案同步學習語言與多模態表徵,增強視覺語言任務處理能力
可變視覺位置編碼(V2PE)
通過靈活的位置增量處理視覺token,提升長上下文理解能力
動態分辨率處理
支持448×448像素圖塊分割,適應不同尺寸輸入

Model Capabilities

圖像理解
文本生成
多模態推理
多語言支持
多圖像處理
視頻理解

Use Cases

視覺問答
圖像描述生成
根據輸入圖像生成詳細描述
多模態對話
基於圖像的對話系統
支持多輪基於圖像的對話交互
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase