V

Vitamin XL 256px

jienengchenによって開発
ViTamin-XL-256pxはViTaminアーキテクチャに基づく視覚言語モデルで、効率的な視覚特徴抽出とマルチモーダルタスク向けに設計されており、高解像度画像処理をサポートします。
ダウンロード数 655
リリース時間 : 4/8/2024

モデル概要

ViTamin-XL-256pxは拡張可能な視覚モデルで、視覚と言語処理能力を組み合わせ、画像分類、オープン語彙検出、セグメンテーション、マルチモーダルタスクに適しています。

モデル特徴

高解像度サポート
256pxから384pxの画像解像度をサポートし、様々なシーン要件に対応します。
マルチタスク性能優位
ImageNet分類、オープン語彙検出、セグメンテーション、マルチモーダルタスクで優れた性能を発揮します。
拡張可能なアーキテクチャ
ViTamin設計によりモデル規模と計算量を柔軟に調整でき、性能と効率のバランスを取れます。

モデル能力

画像特徴抽出
テキスト特徴抽出
マルチモーダルアライメント
オープン語彙検出
セマンティックセグメンテーション
視覚質問応答

使用事例

コンピュータビジョン
画像分類
画像を効率的に分類し、オープン語彙ラベルをサポートします。
ImageNet精度82.1%(256px解像度)
オープン語彙検出
訓練データセットに存在しない新規カテゴリの物体を検出します。
OV-COCO新規クラスAP50 37.5%
マルチモーダルアプリケーション
視覚質問応答
画像とテキスト入力を組み合わせて複雑な質問に回答します。
VQAv2精度78.4%
画像テキスト検索
クロスモーダルの画像テキストマッチングと検索を実現します。
検索性能指標61.2-63.8
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase