I

Internvl3 1B AWQ

由OpenGVLab開發
InternVL3-1B是InternVL3系列中的多模態大語言模型,具有卓越的多模態感知和推理能力。
下載量 303
發布時間 : 4/17/2025

模型概述

InternVL3-1B是一個先進的多模態大語言模型(MLLM),展示了卓越的整體性能,具有更優的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等。

模型特點

原生多模態預訓練
將語言和視覺學習整合到一個預訓練階段,增強多模態任務處理能力。
可變視覺位置編碼(V2PE)
使用更小、更靈活的位置增量編碼視覺令牌,提升長上下文理解能力。
混合偏好優化(MPO)
通過正負樣本的額外監督,提高模型的推理性能。

模型能力

多模態推理
OCR
圖表理解
文檔理解
多圖像理解
視頻理解
GUI定位
空間推理

使用案例

工業圖像分析
工業缺陷檢測
通過圖像分析檢測工業產品中的缺陷。
高精度識別缺陷
3D視覺感知
3D場景理解
理解並分析3D場景中的物體和關係。
提升3D場景理解能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase