I

Internvl3 8B AWQ

由OpenGVLab開發
InternVL3-8B是OpenGVLab推出的先進多模態大語言模型,具備強大的多模態感知與推理能力,支持工具調用、GUI智能體、工業圖像分析、3D視覺感知等新領域。
下載量 1,441
發布時間 : 4/17/2025

模型概述

基於InternViT-300M-448px-V2_5視覺組件和Qwen2.5-7B語言組件的多模態大模型,通過原生多模態預訓練技術實現卓越性能。

模型特點

原生多模態預訓練
將語言與視覺學習統一於單一預訓練階段,無需額外對齊模塊即可增強視覺語言任務處理能力
可變視覺位置編碼(V2PE)
通過精細靈活的位置增量處理視覺token,提升長上下文理解能力
混合偏好優化(MPO)
通過正負樣本監督使模型響應分佈對齊真實分佈,提升推理能力

模型能力

多模態推理
數學計算
OCR識別
圖表理解
文檔解析
多圖像理解
視頻理解
GUI定位
空間推理
多語言理解

使用案例

工業應用
工業圖像分析
分析生產線上的產品缺陷和質量問題
高精度識別各類工業缺陷
智能交互
GUI智能體
理解並操作圖形用戶界面
實現自動化GUI操作
教育科研
科學圖表理解
解析科研論文中的複雜圖表
準確提取圖表中的關鍵信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase