InternViT-300M-448px-V2_5開源視覺模型 - 免費部署處理多語言OCR與數學圖表

首頁

Internvit 300M 448px V2 5

由OpenGVLab開發

InternViT-300M-448px-V2_5是基於InternViT-300M-448px的重大升級版本，通過ViT增量學習和NTP損失提升了視覺特徵提取能力，特別擅長處理多語言OCR數據和數學圖表等複雜場景。

文本生成圖像

Safetensors

開源協議:MIT #多模態特徵提取 #動態高分辨率處理 #增量預訓練優化

下載量 23.29k

發布時間 : 11/22/2024

模型概述

該模型是一個視覺特徵提取模型，主要用於圖像特徵提取任務，能夠捕捉更全面的視覺信息，特別在大規模網絡數據集中代表性不足的領域表現優異。

模型特點

ViT增量學習

通過增量學習和NTP損失提升視覺編碼器的特徵提取能力，特別是在多語言OCR和數學圖表等複雜領域。

動態高分辨率訓練

支持處理多圖像和視頻數據，通過動態分配圖塊實現高效的高分辨率訓練。

多模態支持

整合了經過增量預訓練的InternViT與多種預訓練LLM，支持多模態任務。

模型能力

圖像特徵提取

多語言OCR處理

數學圖表分析

多模態任務支持

使用案例

視覺特徵提取

多語言OCR

處理多語言文本圖像，提取高質量的視覺特徵。

在代表性不足的領域表現優異。

數學圖表分析

提取數學圖表中的視覺特徵，支持複雜的數學符號和結構識別。

能夠捕捉更全面的信息。

多模態任務

圖像-文本對齊

將視覺特徵與文本信息對齊，支持多模態理解和生成任務。

提升跨模態對齊的穩健性。

🚀 InternViT-300M-448px-V2_5

InternViT-300M-448px-V2_5 是基於 InternViT-300M-448px 構建的增強版本，採用ViT增量學習與NTP損失，提升了視覺編碼器提取特徵的能力，尤其在多語言OCR數據和數學圖表等領域表現出色。

📂 GitHub 📜 InternVL 1.0 📜 InternVL 1.5 📜 Mini-InternVL 📜 InternVL 2.5

🆕 Blog 🗨️ Chat Demo 🤗 HF Demo 🚀 Quick Start 📖 Documents

✨ 主要特性

我們很高興地宣佈 InternViT-300M-448px-V2_5 的發佈，它是在 InternViT-300M-448px 的基礎上進行的重大改進。通過採用具有NTP損失的 ViT增量學習（階段1.5），視覺編碼器提取視覺特徵的能力得到了提升，使其能夠捕捉更全面的信息。這種改進在大規模網絡數據集（如LAION - 5B）中代表性不足的領域尤為明顯，包括多語言OCR數據和數學圖表等。

image/png

📚 詳細文檔

InternViT 2.5 系列

下表概述了InternViT 2.5系列的模型：

模型名稱	HF鏈接
InternViT-300M-448px-V2_5	🤗 link
InternViT-6B-448px-V2_5	🤗 link

模型架構

如下圖所示，InternVL 2.5保留了與前代版本InternVL 1.5和2.0相同的模型架構，遵循 “ViT - MLP - LLM” 範式。在這個新版本中，我們使用隨機初始化的MLP投影器，將新的增量預訓練的InternViT與各種預訓練的LLM（包括InternLM 2.5和Qwen 2.5）集成在一起。

image/png

與之前的版本一樣，我們應用了像素重排操作，將視覺標記的數量減少到原來的四分之一。此外，我們採用了與InternVL 1.5類似的動態分辨率策略，將圖像分割成448×448像素的圖塊。從InternVL 2.0開始，關鍵的區別在於我們還增加了對多圖像和視頻數據的支持。

訓練策略

多模態數據的動態高分辨率

在InternVL 2.0和2.5中，我們擴展了動態高分辨率訓練方法，增強了其處理多圖像和視頻數據集的能力。

image/png

對於單圖像數據集，將總圖塊數 n_max 分配給單個圖像以實現最大分辨率。視覺標記用 <img> 和 </img> 標籤括起來。
對於多圖像數據集，將總圖塊數 n_max 分配到樣本中的所有圖像上。每個圖像用 Image - 1 等輔助標籤標記，並使用 <img> 和 </img> 標籤括起來。
對於視頻，每個幀被調整為448×448。幀用 Frame - 1 等標籤標記，並使用 <img> 和 </img> 標籤括起來，與圖像類似。

單模型訓練流程

InternVL 2.5中單個模型的訓練流程分為三個階段，旨在增強模型的視覺感知和多模態能力。

image/png

階段1：MLP預熱：在這個階段，僅訓練MLP投影器，而視覺編碼器和語言模型保持凍結。應用動態高分辨率訓練策略以獲得更好的性能，儘管成本有所增加。此階段確保了強大的跨模態對齊，併為模型的穩定多模態訓練做好準備。
階段1.5：ViT增量學習（可選）：此階段允許使用與階段1相同的數據對視覺編碼器和MLP投影器進行增量訓練。它增強了編碼器處理多語言OCR和數學圖表等罕見領域的能力。一旦訓練完成，編碼器可以在不同的LLM之間重複使用，而無需重新訓練，因此除非引入新的領域，否則此階段是可選的。
階段2：全模型指令調優：在高質量的多模態指令數據集上訓練整個模型。實施嚴格的數據質量控制，以防止LLM性能下降，因為嘈雜的數據可能會導致輸出重複或錯誤等問題。此階段完成後，訓練過程結束。

視覺能力評估

我們對視覺編碼器在各個領域和任務中的性能進行了全面評估。評估分為兩個關鍵類別：（1）圖像分類，代表全局視圖語義質量；（2）語義分割，捕捉局部視圖語義質量。這種方法使我們能夠評估InternViT在其連續版本更新中的表示質量。更多詳細信息請參考我們的技術報告。

圖像分類

image/png

不同版本InternViT的圖像分類性能：我們使用IN - 1K進行訓練，並在IN - 1K驗證集以及多個ImageNet變體（包括IN - ReaL、IN - V2、IN - A、IN - R和IN - Sketch）上進行評估。報告了線性探測和注意力池化探測方法的結果，並給出了每種方法的平均準確率。∆ 表示注意力池化探測和線性探測之間的性能差距，∆ 值越大表明從學習簡單的線性特徵向捕捉更復雜的非線性語義表示轉變。

語義分割性能

image/png

不同版本InternViT的語義分割性能：在ADE20K和COCO - Stuff - 164K上使用三種配置（線性探測、頭部調優和全調優）對模型進行評估。表格顯示了每種配置的mIoU分數及其平均值。∆1 表示頭部調優和線性探測之間的差距，而∆2 表示全調優和線性探測之間的差距。∆ 值越大表明從簡單的線性特徵向更復雜的非線性表示轉變。

💻 使用示例

基礎用法

import torch
from PIL import Image
from transformers import AutoModel, CLIPImageProcessor

model = AutoModel.from_pretrained(
    'OpenGVLab/InternViT-300M-448px-V2_5',
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True).cuda().eval()

image = Image.open('./examples/image1.jpg').convert('RGB')

image_processor = CLIPImageProcessor.from_pretrained('OpenGVLab/InternViT-300M-448px-V2_5')

pixel_values = image_processor(images=image, return_tensors='pt').pixel_values
pixel_values = pixel_values.to(torch.bfloat16).cuda()

outputs = model(pixel_values)

⚠️ 重要提示

根據我們的經驗，InternViT V2.5系列更適合構建MLLM，而非傳統的計算機視覺任務。

📄 許可證

本項目採用MIT許可證發佈。

📚 引用

如果您在研究中發現本項目有用，請考慮引用：

@article{chen2024expanding,
  title={Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling},
  author={Chen, Zhe and Wang, Weiyun and Cao, Yue and Liu, Yangzhou and Gao, Zhangwei and Cui, Erfei and Zhu, Jinguo and Ye, Shenglong and Tian, Hao and Liu, Zhaoyang and others},
  journal={arXiv preprint arXiv:2412.05271},
  year={2024}
}
@article{gao2024mini,
  title={Mini-internvl: A flexible-transfer pocket multimodal model with 5\% parameters and 90\% performance},
  author={Gao, Zhangwei and Chen, Zhe and Cui, Erfei and Ren, Yiming and Wang, Weiyun and Zhu, Jinguo and Tian, Hao and Ye, Shenglong and He, Junjun and Zhu, Xizhou and others},
  journal={arXiv preprint arXiv:2410.16261},
  year={2024}
}
@article{chen2024far,
  title={How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites},
  author={Chen, Zhe and Wang, Weiyun and Tian, Hao and Ye, Shenglong and Gao, Zhangwei and Cui, Erfei and Tong, Wenwen and Hu, Kongzhi and Luo, Jiapeng and Ma, Zheng and others},
  journal={arXiv preprint arXiv:2404.16821},
  year={2024}
}
@inproceedings{chen2024internvl,
  title={Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks},
  author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and others},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={24185--24198},
  year={2024}
}