V

Vit L 16 SigLIP2 512

timmによって開発
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
ダウンロード数 147
リリース時間 : 2/21/2025

モデル概要

これは対比画像-テキストモデルで、SigLIP 2アーキテクチャを採用し、主にゼロショット画像分類タスクに使用されます。モデルはWebLIデータセットで学習されており、画像とテキスト間の意味的関係を理解できます。

モデル特徴

SigLIP 2アーキテクチャ
改良されたSigLIP 2アーキテクチャを採用し、より優れた意味理解、位置特定、高密度特徴抽出能力を備えています
ゼロショット学習
ゼロショット画像分類をサポートし、特定タスクの微調整なしで新しいカテゴリに適用可能
多言語サポート
モデルは多言語テキスト入力をサポート(論文記述から推測)
効率的な対比学習
シグモイド損失関数を使用した言語画像事前学習により、学習効率を向上

モデル能力

画像-テキスト対比学習
ゼロショット画像分類
マルチモーダル特徴抽出

使用事例

画像理解
ゼロショット画像分類
学習なしで新しいカテゴリの画像を分類可能
例ではベニエなどの食品カテゴリを正確に識別できることが示されています
マルチモーダルアプリケーション
画像-テキストマッチング
画像とテキスト記述の類似度を計算
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase