I

Internvit 300M 448px V2 5

OpenGVLabによって開発
InternViT-300M-448px-V2_5はInternViT-300M-448pxの大幅なアップグレード版で、ViTの増分学習とNTP損失により視覚的特徴抽出能力が向上し、特に多言語OCRデータや数学的図表などの複雑なシーンに優れています。
ダウンロード数 23.29k
リリース時間 : 11/22/2024

モデル概要

このモデルは視覚的特徴抽出モデルで、主に画像特徴抽出タスクに使用され、より包括的な視覚情報を捉えることができ、特に大規模なウェブデータセットで代表性が不足している分野で優れた性能を発揮します。

モデル特徴

ViT増分学習
増分学習とNTP損失により、視覚エンコーダーの特徴抽出能力が向上し、特に多言語OCRや数学的図表などの複雑な分野で効果を発揮します。
動的高解像度トレーニング
複数の画像や動画データを処理することをサポートし、動的にタイルを割り当てることで効率的な高解像度トレーニングを実現します。
マルチモーダルサポート
増分事前学習されたInternViTと複数の事前学習LLMを統合し、マルチモーダルタスクをサポートします。

モデル能力

画像特徴抽出
多言語OCR処理
数学的図表分析
マルチモーダルタスクサポート

使用事例

視覚特徴抽出
多言語OCR
多言語テキスト画像を処理し、高品質な視覚的特徴を抽出します。
代表性が不足している分野で優れた性能を発揮します。
数学的図表分析
数学的図表から視覚的特徴を抽出し、複雑な数学記号や構造の認識をサポートします。
より包括的な情報を捉えることができます。
マルチモーダルタスク
画像-テキストアライメント
視覚的特徴とテキスト情報を整合させ、マルチモーダル理解と生成タスクをサポートします。
クロスモーダルアライメントの堅牢性を向上させます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase