I

Internvl3 2B AWQ

由OpenGVLab開發
InternVL3-2B是OpenGVLab推出的先進多模態大語言模型(MLLM),具備卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等。
下載量 677
發布時間 : 4/17/2025

模型概述

InternVL3-2B是一個多模態大語言模型,結合了視覺和語言處理能力,適用於多種多模態任務。

模型特點

原生多模態預訓練
將語言和視覺學習整合到一個預訓練階段,增強多模態處理能力。
可變視覺位置編碼(V2PE)
使用更小、更靈活的位置增量編碼視覺標記,提升長上下文理解能力。
混合偏好優化(MPO)
通過正負樣本監督,提高模型的推理性能。
測試時縮放
採用Best-of-N評估策略和VisualPRM-8B作為批評模型,優化推理和數學評估。

模型能力

多模態推理
OCR
圖表理解
文檔理解
多圖像理解
視頻理解
GUI定位
空間推理

使用案例

工業圖像分析
工業缺陷檢測
通過圖像分析檢測工業產品中的缺陷。
高精度識別缺陷
3D視覺感知
3D場景理解
理解和分析3D場景中的物體和關係。
提升3D場景理解能力
GUI操作
自動化GUI測試
通過模型理解GUI界面並執行自動化測試。
提高測試效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase