V

Vit B 16 SigLIP 256

timmによって開発
WebLIデータセットで訓練されたSigLIP(言語-画像事前学習のSigmoid損失)モデルで、ゼロショット画像分類タスクに適しています。
ダウンロード数 17.15k
リリース時間 : 10/16/2023

モデル概要

このモデルはVision Transformerアーキテクチャに基づくコントラスティブ画像-テキストモデルで、Sigmoid損失を使用した事前学習を行い、ゼロショット画像分類をサポートします。

モデル特徴

Sigmoid損失関数
革新的なSigmoid損失を言語-画像事前学習に採用し、従来のSoftmax損失よりも優れた性能を発揮します
ゼロショット分類能力
微調整なしで新しい画像分類タスクに直接適用可能
大規模事前学習
WebLI大規模データセットで事前学習を行い、強力な汎化能力を有します

モデル能力

画像-テキストコントラスティブ学習
ゼロショット画像分類
画像特徴抽出
マルチモーダル理解

使用事例

画像分類
ゼロショット画像認識
訓練なしで新しいカテゴリの画像を認識可能
例ではベニエ餅を正確に認識できます
コンテンツ理解
画像-テキストマッチング
画像とテキスト記述の類似度を計算
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase