V

Vit SO400M 16 SigLIP2 384

timmによって開発
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
ダウンロード数 106.30k
リリース時間 : 2/21/2025

モデル概要

これは対比画像-テキストモデルで、ゼロショット画像分類のために特別に設計されており、画像とテキスト間の意味関係を理解できます。

モデル特徴

ゼロショット分類能力
特定のトレーニングなしで新しいカテゴリの画像分類が可能
改善された意味理解
SigLIP 2アーキテクチャはより良い意味理解と位置特定能力を提供します
密な特徴抽出
画像の密な特徴表現を抽出できます

モデル能力

ゼロショット画像分類
画像-テキスト意味マッチング
マルチモーダル特徴抽出

使用事例

画像理解
食品認識
ドーナツ、ベニエなどの様々な食品カテゴリを識別
例ではベニエを最も高い確率で正確に識別
動物認識
猫、犬などの異なる動物カテゴリを区別
コンテンツモデレーション
不適切コンテンツ検出
画像に含まれる可能性のある不適切なコンテンツを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase