V

Vitamin XL 384px

jienengchenによって開発
ViTamin-XL-384px はViTaminアーキテクチャに基づく大規模視覚言語モデルで、視覚言語タスク向けに設計されており、高解像度画像処理とマルチモーダル特徴抽出をサポートします。
ダウンロード数 104
リリース時間 : 4/2/2024

モデル概要

ViTamin-XL-384px は視覚言語モデルで、主に画像特徴抽出とテキスト-画像マッチングタスクに使用されます。ViTaminアーキテクチャに基づき、高解像度画像入力(384px)をサポートし、複数の視覚タスクで優れた性能を発揮します。

モデル特徴

高解像度サポート
最大384pxの画像入力をサポートし、より詳細な画像処理が可能です。
マルチモーダル特徴抽出
画像とテキストの特徴を同時に抽出でき、クロスモーダルマッチングタスクをサポートします。
効率的なトレーニング
DataComp-1Bなどの大規模データセットで事前学習されており、優れた汎化能力を持ちます。
下流タスク適応
オープン語彙検出、セグメンテーション、マルチモーダル理解などのタスクで優れた性能を発揮します。

モデル能力

画像特徴抽出
テキスト-画像マッチング
オープン語彙検出
オープン語彙セグメンテーション
マルチモーダル理解

使用事例

コンピュータビジョン
オープン語彙物体検出
未知のカテゴリでの物体検出
OV-COCO (AP50新規) 37.5,OV-LVIS (APr) 35.6
オープン語彙画像セグメンテーション
画像の意味的セグメンテーションを行い、新規カテゴリ認識をサポート
ADE 27.3 PQ,CityScapes 44.0 PQ
マルチモーダルアプリケーション
視覚的質問応答
画像内容に関する自然言語質問に回答
VQAv2 78.9,GQA 61.6
画像検索
テキストクエリに基づいて関連画像を検索
検索タスク平均スコア61.8
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase