I

Internvit 300M 448px

由OpenGVLab開發
InternViT-300M-448px是一個高效的視覺基礎模型,通過從InternViT-6B-448px-V1-5蒸餾知識開發而來,具備448×448的動態輸入分辨率,支持1至40個圖塊處理。
下載量 7,506
發布時間 : 5/24/2024

模型概述

InternViT-300M-448px是一個視覺基礎模型,主要用於圖像特徵提取。它繼承了InternViT-6B-448px-V1-5的強大魯棒性、OCR能力以及高分辨率處理能力。

模型特點

高分辨率處理能力
支持448×448的動態輸入分辨率,訓練時支持1至12個圖塊,測試時可擴展至1至40個圖塊。
強大的OCR能力
通過額外的OCR數據增強,模型在處理中文和英文OCR任務時表現出色。
高效模型
通過知識蒸餾從更大的模型中獲得高效性能,參數量僅為304百萬。

模型能力

圖像特徵提取
高分辨率圖像處理
OCR識別
多模態任務支持

使用案例

多模態大語言模型
構建MLLMs
InternViT V2.5系列適合用於構建多模態大語言模型(MLLMs)。
OCR任務
中文OCR識別
使用PaddleOCR對Wukong中的圖像進行中文OCR識別。
英文OCR識別
對LAION-COCO中的圖像進行英文OCR識別。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase