V

Vit Intern300m Patch14 448.ogvl Dist

timmによって開発
InternViT-300MはOpenGVLabチームによって開発された視覚Transformerモデルで、InternViT-6Bから蒸留された事前学習モデルであり、様々な視覚タスクをサポートします。
ダウンロード数 147
リリース時間 : 10/16/2024

モデル概要

このモデルはViTアーキテクチャに基づく画像特徴抽出モデルで、主に画像分類と特徴抽出タスクに使用され、448x448解像度の画像入力をサポートします。

モデル特徴

高解像度サポート
448x448の高解像度画像入力をサポートし、精密な視覚特徴が必要なタスクに適しています。
複数データセットでの事前学習
LAION-en/zh、COYO、GRITなどの大規模データセットで事前学習されており、強力な汎化能力を持っています。
蒸留モデル
より大きなInternViT-6Bモデルから蒸留されており、性能を維持しながらモデルサイズを縮小しています。

モデル能力

画像分類
視覚特徴抽出
画像埋め込み生成

使用事例

コンピュータビジョン
画像分類
入力画像を分類し、画像内の主要なオブジェクトやシーンを識別します。
複数のベンチマークデータセットで優れた性能を発揮
視覚特徴抽出
画像の深層視覚特徴を抽出し、物体検出や画像検索などの下流タスクに使用できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase