I

Internvit 6B 448px V1 2

由OpenGVLab開發
InternViT-6B-448px-V1-2是一個視覺基礎模型,特徵骨幹,具有5540萬參數,支持448x448像素的圖像處理。
下載量 19
發布時間 : 2/11/2024

模型概述

該模型是一個視覺基礎模型,主要用於圖像特徵提取,支持高分辨率處理和OCR能力。

模型特點

高分辨率處理
支持448x448像素的高分辨率圖像處理。
OCR能力
通過額外訓練增強了OCR能力,適用於文本識別任務。
參數優化
通過丟棄最後3個塊,參數從5.9B減少到5.5B,節省GPU內存。

模型能力

圖像特徵提取
高分辨率圖像處理
OCR文本識別

使用案例

計算機視覺
圖像特徵提取
用於提取圖像的高維特徵,支持後續的視覺任務。
OCR
文本識別
識別圖像中的文本內容,適用於文檔數字化等場景。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase