I

Internvl3 1B

由FriendliAI開發
InternVL3-1B是InternVL3系列中的1B參數規模多模態大語言模型,整合了InternViT視覺編碼器和Qwen2.5語言模型,具備卓越的多模態感知和推理能力。
下載量 71
發布時間 : 4/12/2025

模型概述

InternVL3-1B是一個先進的多模態大語言模型,結合了視覺和語言處理能力,支持圖像、視頻、文本等多種模態的輸入,適用於複雜的多模態理解和生成任務。

模型特點

原生多模態預訓練
將語言和視覺學習整合到一個預訓練階段,增強多模態任務處理能力。
可變視覺位置編碼(V2PE)
使用更小、更靈活的位置增量處理視覺標記,提升長上下文理解能力。
混合偏好優化(MPO)
通過正負樣本監督對齊模型響應分佈,提高推理性能。
動態分辨率策略
將圖像劃分為448×448像素的塊,支持多圖像和視頻數據。

模型能力

多模態推理
圖像理解
視頻理解
文本生成
OCR
圖表理解
文檔理解
GUI定位
空間推理

使用案例

工業圖像分析
工業缺陷檢測
通過圖像分析識別工業產品中的缺陷。
高精度識別缺陷,提升生產效率。
3D視覺感知
3D場景理解
分析3D場景中的物體和空間關係。
準確理解複雜3D場景。
工具使用
自動化工具操作
通過自然語言指令操作工具。
提升工具使用的便捷性和效率。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase