V

Vit B 16 SigLIP 384

timmによって開発
WebLIデータセットで訓練されたSigLIP(Sigmoid損失言語画像事前学習)モデルで、ゼロショット画像分類タスクに使用されます
ダウンロード数 4,119
リリース時間 : 10/16/2023

モデル概要

このモデルは対比画像-テキストモデルで、Sigmoid損失関数を用いて事前学習されており、ゼロショット画像分類タスクに適しています。モデルはViT-B-16アーキテクチャに基づき、WebLIデータセットで訓練されました。

モデル特徴

Sigmoid損失関数
革新的なSigmoid損失関数を用いた言語画像事前学習で、従来のSoftmax損失よりも優れた性能を発揮します
ゼロショット学習能力
特定のクラス訓練なしで新しいクラスの画像分類が可能
高解像度入力
384x384ピクセルの高解像度画像入力をサポート
多フレームワークサポート
OpenCLIP(画像+テキスト)とtimm(画像のみ)の両フレームワークをサポート

モデル能力

ゼロショット画像分類
画像-テキストマッチング
画像特徴抽出
マルチモーダル理解

使用事例

コンテンツ分類
ソーシャルメディア画像分類
ソーシャルメディア上の画像を自動分類・タグ付け
画像中の物体、シーン、活動を正確に識別可能
電子商取引
製品画像分類
電子商取引プラットフォーム上の製品画像を自動分類
各製品カテゴリごとに個別にモデルを訓練する必要がない
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase