I

Internvl3 2B AWQ

Developed by OpenGVLab
InternVL3-2B是OpenGVLab推出的先進多模態大語言模型(MLLM),具備卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等。
Downloads 677
Release Time : 4/17/2025

Model Overview

InternVL3-2B是一個多模態大語言模型,結合了視覺和語言處理能力,適用於多種多模態任務。

Model Features

原生多模態預訓練
將語言和視覺學習整合到一個預訓練階段,增強多模態處理能力。
可變視覺位置編碼(V2PE)
使用更小、更靈活的位置增量編碼視覺標記,提升長上下文理解能力。
混合偏好優化(MPO)
通過正負樣本監督,提高模型的推理性能。
測試時縮放
採用Best-of-N評估策略和VisualPRM-8B作為批評模型,優化推理和數學評估。

Model Capabilities

多模態推理
OCR
圖表理解
文檔理解
多圖像理解
視頻理解
GUI定位
空間推理

Use Cases

工業圖像分析
工業缺陷檢測
通過圖像分析檢測工業產品中的缺陷。
高精度識別缺陷
3D視覺感知
3D場景理解
理解和分析3D場景中的物體和關係。
提升3D場景理解能力
GUI操作
自動化GUI測試
通過模型理解GUI界面並執行自動化測試。
提高測試效率
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase