I

Internvit 6B 448px V1 5

由OpenGVLab開發
InternViT-6B-448px-V1-5是基於InternViT-6B-448px-V1-2微調的視覺基礎模型,具備強大的魯棒性、OCR能力及高分辨率處理能力。
下載量 155
發布時間 : 4/17/2024

模型概述

該模型是一個視覺基礎模型,主要用於圖像特徵提取。它在InternViT-6B-448px-V1-2的基礎上進行了微調,提升了預訓練數據集的質量和多樣性,並擴展了訓練圖像分辨率。

模型特點

動態分辨率處理
支持448×448基礎圖塊大小,圖塊數量範圍為1至12,具備高分辨率處理能力。
增強OCR能力
通過引入OCR相關數據集,顯著提升了模型的文本識別能力。
優化的模型結構
丟棄最後3個塊,參數量從59億降至55億,節省GPU內存同時保持性能。
多樣化預訓練數據
使用LAION、COYO、GRIT等多種數據集,增強模型的魯棒性和泛化能力。

模型能力

圖像特徵提取
高分辨率圖像處理
文本識別(OCR)
多模態任務支持

使用案例

計算機視覺
圖像特徵提取
提取圖像的高層特徵表示,用於下游任務如分類、檢測等。
文檔OCR
識別圖像中的文本內容,適用於文檔數字化處理。
多模態學習
視覺-語言模型構建
作為視覺骨幹網絡,用於構建多模態大語言模型(MLLM)。
建議使用V2.5系列構建MLLM
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase