I

Internvl3 38B Instruct

由OpenGVLab開發
InternVL3-38B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
下載量 468
發布時間 : 4/16/2025

模型概述

InternVL3-38B-Instruct 是 InternVL3 系列的 SFT 版本,經過原生多模態預訓練和監督微調,具備強大的多模態理解和生成能力。

模型特點

原生多模態預訓練
將語言和視覺學習整合到一個預訓練階段,增強了多模態任務的處理能力。
可變視覺位置編碼(V2PE)
使用更小、更靈活的位置增量處理視覺標記,提升了長上下文理解能力。
混合偏好優化(MPO)
通過正負樣本的額外監督,對齊模型響應分佈與地面真實分佈,提高推理性能。
動態分辨率策略
將圖像分割為448×448像素的塊,支持多圖像和視頻數據的處理。

模型能力

多模態推理
OCR
圖表理解
文檔理解
多圖像理解
視頻理解
GUI定位
空間推理
工具使用
3D視覺感知

使用案例

工業圖像分析
缺陷檢測
識別工業圖像中的缺陷或異常。
高精度識別缺陷,提升生產效率。
文檔處理
文檔理解
解析和理解複雜文檔內容。
高效提取關鍵信息,支持自動化文檔處理。
視頻分析
視頻內容理解
分析視頻內容並生成描述。
準確理解視頻場景和動作。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase