I

Internvit 6B 448px V1 2

Developed by OpenGVLab
InternViT-6B-448px-V1-2は、5540万パラメータを持つ視覚基盤モデルで、448x448ピクセルの画像処理をサポートしています。
Downloads 19
Release Time : 2/11/2024

Model Overview

このモデルは主に画像特徴抽出に使用され、高解像度処理とOCR機能をサポートしています。

Model Features

高解像度処理
448x448ピクセルの高解像度画像処理をサポートしています。
OCR機能
追加のトレーニングによりOCR機能が強化され、テキスト認識タスクに適しています。
パラメータ最適化
最後の3つのブロックを削除することで、パラメータを5.9Bから5.5Bに削減し、GPUメモリを節約します。

Model Capabilities

画像特徴抽出
高解像度画像処理
OCRテキスト認識

Use Cases

コンピュータビジョン
画像特徴抽出
画像の高次元特徴を抽出し、後続の視覚タスクをサポートします。
OCR
テキスト認識
画像内のテキスト内容を認識し、文書のデジタル化などのシナリオに適しています。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase