I

Internvit 6B 448px V2 5

OpenGVLabによって開発
InternViT-6B-448px-V2_5はInternViT-6B-448px-V1-5の大幅なアップグレード版で、ViTインクリメンタル学習とNTP損失により視覚特徴抽出能力を向上させ、特に多言語OCRデータや数学図表などの複雑なシーンに優れています。
ダウンロード数 711
リリース時間 : 11/22/2024

モデル概要

このモデルは強力な視覚特徴抽出器で、ViT-MLP-LLMアーキテクチャを採用し、単一画像、複数画像、動画データの動的高解像度処理をサポートし、マルチモーダル大規模言語モデル(MLLM)の構築に適しています。

モデル特徴

ViTインクリメンタル学習
ステージ1.5のインクリメンタル事前学習により、多言語OCRや数学図表などのレア領域での特徴抽出能力が大幅に向上
動的高解像度処理
単一画像、複数画像、動画データの柔軟な処理をサポートし、最大ブロック数n_maxを異なる入力タイプに動的に割り当て可能
マルチモーダルサポート
InternVL 1.5および2.0と同じアーキテクチャを保持し、インクリメンタル事前学習済みInternViTと複数LLMを統合、MLLM構築に適している

モデル能力

画像特徴抽出
マルチモーダルアライメント
動的解像度処理
複数画像分析
動画フレーム処理

使用事例

マルチモーダルアプリケーション
多言語OCR
ウェブデータセットで代表性の低い多言語テキスト認識を処理
多言語シナリオでの特徴抽出能力を向上
数学図表理解
複雑な数式や図表を解析
専門領域での視覚表現能力を強化
コンピュータビジョン
画像分類
ImageNetなどのデータセットで画像分類を実施
IN-1K検証セット及び複数バリエーションで優れた性能
セマンティックセグメンテーション
ADE20KとCOCO-Stuff-164Kでセマンティックセグメンテーションを実施
線形プローブ、ヘッドチューニング、フルチューニングの3構成をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase