I

Internvit 6B 224px

OpenGVLabによって開発
InternViT-6B-224px は視覚基盤モデルで、画像特徴抽出に特化しており、5903百万のパラメータを持ち、224x224ピクセルの画像入力をサポートします。
ダウンロード数 160
リリース時間 : 12/22/2023

モデル概要

このモデルは視覚基盤モデルで、主に画像特徴抽出に使用され、様々な視覚タスクに適用可能です。

モデル特徴

大規模事前学習
モデルはLAION-en、LAION-COCO、COYOなどの複数の大規模データセットで事前学習されています。
高性能特徴抽出
IN-1K、IN-ReaLなどのデータセットで、様々な画像分類タスクで優れた性能を発揮します。
後ろから4番目の層の特徴最適化
後ろから4番目のブロックの出力を使用するとVLLMの効果が最も高く、視覚言語モデルの構築に適しています。

モデル能力

画像特徴抽出
視覚タスクサポート
大規模画像処理

使用事例

画像分類
ImageNet分類
ImageNet-1Kデータセットで線形プローブ評価を行います。
88.2%精度
視覚言語モデル
VLLM構築
後ろから4番目の層の特徴を使用して視覚言語モデルを構築します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase