V

Vit B 16 SigLIP 512

timmによって開発
WebLIデータセットで訓練されたSigLIP(Sigmoid損失言語画像事前学習)モデル、ゼロショット画像分類タスク用
ダウンロード数 3,787
リリース時間 : 10/16/2023

モデル概要

これは対比画像-テキストモデルで、Sigmoid損失を使用した言語画像事前学習を行い、特にゼロショット画像分類タスクに適しています。モデルはJAXチェックポイントからPyTorch形式に変換され、OpenCLIPとtimmで使用可能です。

モデル特徴

Sigmoid損失関数
従来のSoftmax損失ではなくSigmoid損失を採用した言語画像事前学習で、モデル性能を向上
ゼロショット分類能力
特定タスクのファインチューニングなしで新しい画像分類タスクに直接適用可能
多フレームワークサポート
OpenCLIP(画像+テキスト)とtimm(画像のみ)の両フレームワークをサポート

モデル能力

ゼロショット画像分類
画像特徴抽出
テキスト特徴抽出
画像-テキストマッチング

使用事例

画像認識
食品認識
画像中の食品カテゴリ(ドーナツ、ベニエなど)を識別
各カテゴリの確率分布を出力可能
コンテンツモデレーション
不適切コンテンツ検出
画像に特定カテゴリの不適切コンテンツが含まれるか検出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase