I

Internvit 300M 448px V2 5

由OpenGVLab開發
InternViT-300M-448px-V2_5是基於InternViT-300M-448px的重大升級版本,通過ViT增量學習和NTP損失提升了視覺特徵提取能力,特別擅長處理多語言OCR數據和數學圖表等複雜場景。
下載量 23.29k
發布時間 : 11/22/2024

模型概述

該模型是一個視覺特徵提取模型,主要用於圖像特徵提取任務,能夠捕捉更全面的視覺信息,特別在大規模網絡數據集中代表性不足的領域表現優異。

模型特點

ViT增量學習
通過增量學習和NTP損失提升視覺編碼器的特徵提取能力,特別是在多語言OCR和數學圖表等複雜領域。
動態高分辨率訓練
支持處理多圖像和視頻數據,通過動態分配圖塊實現高效的高分辨率訓練。
多模態支持
整合了經過增量預訓練的InternViT與多種預訓練LLM,支持多模態任務。

模型能力

圖像特徵提取
多語言OCR處理
數學圖表分析
多模態任務支持

使用案例

視覺特徵提取
多語言OCR
處理多語言文本圖像,提取高質量的視覺特徵。
在代表性不足的領域表現優異。
數學圖表分析
提取數學圖表中的視覺特徵,支持複雜的數學符號和結構識別。
能夠捕捉更全面的信息。
多模態任務
圖像-文本對齊
將視覺特徵與文本信息對齊,支持多模態理解和生成任務。
提升跨模態對齊的穩健性。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase