I

Internvl3 1B GGUF

由unsloth開發
InternVL3-1B是一款先進的多模態大語言模型,在多模態感知、推理等能力上表現出色,還拓展了工具使用、GUI代理等多模態能力。
下載量 868
發布時間 : 5/18/2025

模型概述

InternVL3-1B是一款多模態大語言模型,具備卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種應用場景。

模型特點

原生多模態預訓練
將語言和視覺學習整合到一個預訓練階段,提高多模態任務處理能力。
可變視覺位置編碼(V2PE)
為視覺標記使用更小、更靈活的位置增量,提升長上下文理解能力。
混合偏好優化(MPO)
通過偏好損失、質量損失和生成損失的組合,提升推理性能。
動態分辨率策略
將圖像分割成448×448像素的圖塊,支持多圖像和視頻數據。

模型能力

多模態感知
多模態推理
工具使用
GUI代理
工業圖像分析
3D視覺感知
視頻理解
科學圖表分析
創意寫作
多模態多語言理解

使用案例

工業應用
工業圖像分析
用於工業場景中的圖像識別和分析任務。
GUI操作
GUI代理
支持自動化GUI操作和交互。
3D視覺
3D視覺感知
用於3D場景理解和分析。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase