I

Internvl3 78B Pretrained

由OpenGVLab開發
InternVL3-78B是OpenGVLab推出的先進多模態大語言模型,展現卓越的綜合性能。相比前代InternVL 2.5,具備更強大的多模態感知與推理能力,並將能力拓展至工具使用、GUI代理、工業圖像分析、3D視覺感知等新領域。
下載量 22
發布時間 : 4/17/2025

模型概述

InternVL3-78B是已完成原生多模態預訓練但未進行後訓練的版本,採用'ViT-MLP-LLM'架構,支持多圖像和視頻數據,具備長上下文理解能力。

模型特點

原生多模態預訓練
統一訓練語言與視覺學習,增強多模態任務處理能力
可變視覺位置編碼(V2PE)
採用更小更靈活的位置增量,提升長上下文理解能力
多模態能力擴展
支持工具使用、GUI代理、工業圖像分析、3D視覺感知等新領域
動態分辨率處理
將圖像劃分為448×448像素圖塊,支持多圖像和視頻數據

模型能力

多模態推理
圖像描述生成
視覺問答
文檔理解
視頻理解
GUI操作理解
3D場景理解
多語言支持

使用案例

智能客服
多模態客服助手
通過圖像和文本交互解決用戶問題
提升客服效率和用戶體驗
內容生成
圖文內容創作
根據圖像生成描述性或創意性文本
自動化內容生產流程
工業檢測
缺陷分析
分析工業圖像並描述缺陷情況
提高質檢效率和準確性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase