V

Vit L 16 SigLIP2 256

timmによって開発
WebLIデータセットで訓練されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
ダウンロード数 888
リリース時間 : 2/21/2025

モデル概要

これは対比画像-テキストモデルで、特にゼロショット画像分類タスクに特化しています。SigLIP 2アーキテクチャを採用し、WebLIデータセットで訓練されており、画像とテキスト間の意味関係を理解できます。

モデル特徴

SigLIP 2アーキテクチャ
改良されたSigLIP 2アーキテクチャを採用し、より優れた意味理解、位置特定、密な特徴抽出能力を備えています
ゼロショット学習
特定タスクの微調整なしで画像分類タスクを実行可能
多言語サポート
多言語テキスト入力をサポート(論文記述に基づく推測)
効率的な対比学習
シグモイド損失関数を使用した言語画像事前学習により、学習効率を向上

モデル能力

ゼロショット画像分類
画像-テキスト対比学習
多言語テキスト理解
意味的特徴抽出

使用事例

画像理解
ゼロショット画像分類
訓練なしで画像を分類可能、カスタムカテゴリラベルをサポート
例ではベニエ餅を正確に識別する能力を示しています
マルチモーダルアプリケーション
画像-テキストマッチング
画像とテキスト記述の類似度を計算
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase