I

Internvit 6B 448px V1 2

OpenGVLabによって開発
InternViT-6B-448px-V1-2は、5540万パラメータを持つ視覚基盤モデルで、448x448ピクセルの画像処理をサポートしています。
ダウンロード数 19
リリース時間 : 2/11/2024

モデル概要

このモデルは主に画像特徴抽出に使用され、高解像度処理とOCR機能をサポートしています。

モデル特徴

高解像度処理
448x448ピクセルの高解像度画像処理をサポートしています。
OCR機能
追加のトレーニングによりOCR機能が強化され、テキスト認識タスクに適しています。
パラメータ最適化
最後の3つのブロックを削除することで、パラメータを5.9Bから5.5Bに削減し、GPUメモリを節約します。

モデル能力

画像特徴抽出
高解像度画像処理
OCRテキスト認識

使用事例

コンピュータビジョン
画像特徴抽出
画像の高次元特徴を抽出し、後続の視覚タスクをサポートします。
OCR
テキスト認識
画像内のテキスト内容を認識し、文書のデジタル化などのシナリオに適しています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase