V

Vit SO400M 14 SigLIP

timmによって開発
WebLIデータセットで訓練されたSigLIP(言語-画像事前学習用Sigmoid損失)モデルで、ゼロショット画像分類タスクに適しています。
ダウンロード数 79.55k
リリース時間 : 10/16/2023

モデル概要

このモデルはSigLIP(Sigmoid損失言語画像事前学習)に基づく視覚-言語モデルで、主にゼロショット画像分類タスクに使用されます。画像とテキストを同じ埋め込み空間にマッピングし、クロスモーダルな類似性計算を実現できます。

モデル特徴

Sigmoid損失関数
従来のSoftmax損失ではなくSigmoid損失を使用した言語-画像事前学習により、モデルの訓練効率と性能が向上しました。
ゼロショット分類能力
タスク固有のファインチューニングなしで、新しい画像分類タスクに直接適用できます。
大規模事前学習
大規模なウェブ画像データセットWebLIで事前学習されており、強力な汎化能力を持っています。

モデル能力

ゼロショット画像分類
画像-テキスト類似度計算
クロスモーダル特徴抽出

使用事例

画像理解
ゼロショット画像分類
訓練なしで画像を分類でき、候補ラベルテキストを提供するだけで済みます。
例ではクレープ画像の正しい分類確率が最も高いことが示されています
コンテンツ検索
クロスモーダル検索
テキストクエリを使用して関連画像を検索したり、その逆を行ったりできます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase