I

Internvl3 9B Instruct

由OpenGVLab開發
InternVL3-9B-Instruct 是 InternVL3 系列的監督微調版本,具備強大的多模態感知和推理能力,支持圖像、文本、視頻等多種模態處理。
下載量 220
發布時間 : 4/16/2025

模型概述

InternVL3-9B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的綜合性能,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。

模型特點

原生多模態預訓練
將語言和視覺學習整合到單一的預訓練階段,增強多模態任務處理能力。
可變視覺位置編碼(V2PE)
使用更小、更靈活的位置增量,提升長上下文理解能力。
動態分辨率策略
將圖像劃分為448×448像素的圖塊,支持多圖像和視頻數據。
混合偏好優化(MPO)
通過正負樣本監督,提高模型的推理性能和響應質量。

模型能力

多模態推理
OCR 與文檔理解
圖表分析
多圖像理解
視頻理解
GUI 定位
空間推理
多語言支持

使用案例

工業應用
工業圖像分析
用於工業場景中的圖像識別和質量檢測。
高精度識別和分類。
教育
科學圖表理解
幫助學生理解複雜的科學圖表和數據。
提升學習效率和理解深度。
創意寫作
多模態創意寫作
結合圖像和文本生成創意內容。
豐富的內容創作體驗。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase