V

Vit L 16 SigLIP 384

timmによって開発
WebLIデータセットで訓練されたSigLIP(Sigmoid Loss for Language-Image Pre-training)モデルで、ゼロショット画像分類タスクに使用されます。
ダウンロード数 3,008
リリース時間 : 10/16/2023

モデル概要

このモデルは対比画像-テキストモデルで、Sigmoid損失関数を用いた言語-画像事前学習を採用し、ゼロショット画像分類タスクをサポートします。

モデル特徴

Sigmoid損失関数
Sigmoid損失関数を用いた言語-画像事前学習を採用し、従来のSoftmax損失関数よりも特定のタスクで優れた性能を発揮します。
ゼロショット分類能力
ゼロショット画像分類をサポートし、特定のタスク向けの微調整なしで新しいカテゴリに適用可能です。
大規模視覚Transformer
ViT-L-16アーキテクチャに基づき、強力な画像特徴抽出能力を備えています。

モデル能力

ゼロショット画像分類
画像-テキスト対比学習
画像特徴抽出

使用事例

コンピュータビジョン
画像分類
訓練なしで新しいカテゴリの画像を分類可能
画像検索
テキスト記述に基づいて関連画像を検索
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase