V

Vit B 32 SigLIP2 256

timmによって開発
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
ダウンロード数 691
リリース時間 : 2/21/2025

モデル概要

これは対比画像-テキストモデルで、特にゼロショット画像分類タスクに使用されます。SigLIP 2アーキテクチャを採用し、WebLIデータセットで学習されており、画像とテキスト間の意味関係を理解できます。

モデル特徴

SigLIP 2アーキテクチャ
改良されたSigLIP 2アーキテクチャを採用し、より優れた意味理解、位置特定、密な特徴抽出能力を持っています
ゼロショット分類
特定の学習なしで新しいカテゴリの画像分類が可能
多言語サポート
多言語テキスト入力をサポート(論文に基づく推測)
効率的な視覚エンコーディング
Vision Transformerアーキテクチャを使用して画像特徴を効率的にエンコード

モデル能力

ゼロショット画像分類
画像-テキストマッチング
マルチモーダル特徴抽出

使用事例

画像理解
ゼロショット画像分類
学習なしで画像を分類でき、動的に新しいカテゴリを追加可能
各カテゴリの確率分布を出力可能
画像検索
テキスト記述に基づいて関連画像を検索
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase