I

Internvit 300M 448px

OpenGVLabによって開発
InternViT-300M-448pxは、InternViT-6B-448px-V1-5から知識蒸留によって開発された効率的な視覚基盤モデルで、448×448の動的入力解像度を備え、1から40のパッチ処理をサポートします。
ダウンロード数 7,506
リリース時間 : 5/24/2024

モデル概要

InternViT-300M-448pxは、主に画像特徴抽出に使用される視覚基盤モデルです。InternViT-6B-448px-V1-5の強力なロバスト性、OCR能力、および高解像度処理能力を継承しています。

モデル特徴

高解像度処理能力
448×448の動的入力解像度をサポートし、訓練時には1から12のパッチ、テスト時には1から40のパッチまで拡張可能です。
強力なOCR能力
追加のOCRデータ強化により、中国語と英語のOCRタスクで優れた性能を発揮します。
効率的なモデル
より大きなモデルからの知識蒸留により効率的な性能を獲得し、パラメータ数はわずか3億400万です。

モデル能力

画像特徴抽出
高解像度画像処理
OCR認識
マルチモーダルタスクサポート

使用事例

マルチモーダル大規模言語モデル
MLLMs構築
InternViT V2.5シリーズは、マルチモーダル大規模言語モデル(MLLMs)の構築に適しています。
OCRタスク
中国語OCR認識
PaddleOCRを使用してWukongの画像から中国語OCR認識を行います。
英語OCR認識
LAION-COCOの画像から英語OCR認識を行います。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase