I

Internvl3 9B AWQ

由OpenGVLab開發
InternVL3-9B是InternVL3系列中的一款多模態大語言模型,具備卓越的多模態感知與推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種應用場景。
下載量 214
發布時間 : 4/17/2025

模型概述

InternVL3-9B採用'ViT-MLP-LLM'架構,整合了InternViT視覺編碼器和InternLM3語言模型,通過原生多模態預訓練方法實現強大的多模態理解與生成能力。

模型特點

原生多模態預訓練
採用統一訓練方案同時學習語言和多模態表示,無需單獨的校準或橋接模塊
可變視覺位置編碼(V2PE)
支持更好的長上下文理解能力
混合偏好優化(MPO)
通過正負樣本監督提升推理性能
多模態擴展能力
支持工具使用、GUI操作、3D視覺感知等多樣化應用

模型能力

多模態推理
數學計算
OCR識別
圖表理解
文檔分析
多圖像理解
視頻理解
GUI定位
空間推理
多語言理解

使用案例

工業應用
工業圖像分析
用於工業場景中的缺陷檢測和質量控制
交互應用
GUI代理
自動化GUI操作和界面理解
3D應用
3D場景理解
理解和分析3D場景信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase