I

Internvit 6B 448px V2 5

由OpenGVLab開發
InternViT-6B-448px-V2_5是基於InternViT-6B-448px-V1-5的重大升級版本,通過ViT增量學習與NTP損失提升了視覺特徵提取能力,特別擅長處理多語言OCR數據和數學圖表等複雜場景。
下載量 711
發布時間 : 11/22/2024

模型概述

該模型是一個強大的視覺特徵提取器,採用ViT-MLP-LLM架構,支持動態高分辨率處理單圖像、多圖像和視頻數據,適用於構建多模態大語言模型(MLLM)。

模型特點

ViT增量學習
通過階段1.5的增量預訓練,顯著提升了在罕見領域(如多語言OCR和數學圖表)的特徵提取能力
動態高分辨率處理
支持靈活處理單圖像、多圖像和視頻數據,最大塊數n_max可動態分配給不同輸入類型
多模態支持
保留與InternVL 1.5和2.0相同的架構,整合了增量預訓練的InternViT與多個LLM,適合構建MLLM

模型能力

圖像特徵提取
多模態對齊
動態分辨率處理
多圖像分析
視頻幀處理

使用案例

多模態應用
多語言OCR
處理網絡數據集中代表性不足的多語言文本識別
提升在多語言場景下的特徵提取能力
數學圖表理解
解析複雜的數學公式和圖表
增強在專業領域的視覺表示能力
計算機視覺
圖像分類
在ImageNet等數據集上進行圖像分類
在IN-1K驗證集及多個變體上表現優異
語義分割
在ADE20K和COCO-Stuff-164K上進行語義分割
支持線性探測、頭部調優和全調優三種配置
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase