I

Internvl3 1B Instruct

由OpenGVLab開發
InternVL3-1B-Instruct 是 InternVL3 系列的監督微調版本,基於原生多模態預訓練,具備卓越的多模態感知和推理能力。
下載量 705
發布時間 : 4/16/2025

模型概述

InternVL3-1B-Instruct 是一個先進的多模態大語言模型,支持圖像、文本、視頻等多種模態的聯合理解與推理,適用於複雜的多模態任務。

模型特點

原生多模態預訓練
將語言和視覺學習整合到單一的預訓練階段,增強多模態表示能力。
可變視覺位置編碼(V2PE)
使用更小、更靈活的位置增量表示視覺標記,提升長上下文理解能力。
動態分辨率策略
將圖像劃分為 448×448 像素的圖塊,支持多圖像和視頻數據。
混合偏好優化(MPO)
通過正負樣本的額外監督,提高模型的推理性能。

模型能力

多模態推理
圖像理解
文本生成
視頻理解
OCR
圖表理解
文檔理解
GUI 定位
空間推理

使用案例

多模態推理
複雜問題解答
結合圖像和文本信息進行復雜問題的推理和解答。
在多項基準測試中表現優異。
文檔理解
文檔內容提取
從掃描文檔或圖像中提取文本和結構化信息。
支持高質量的 OCR 和文檔分析。
GUI 操作
界面自動化
理解並操作圖形用戶界面(GUI)。
可用於自動化測試和輔助工具開發。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase