V

Vit B 16 SigLIP2 384

timmによって開発
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています
ダウンロード数 1,497
リリース時間 : 2/21/2025

モデル概要

これは対照的な画像テキストモデルで、Sigmoid損失関数を使用して事前訓練され、多言語視覚言語エンコーディングをサポートし、改善された意味理解と位置特定能力を持っています

モデル特徴

Sigmoid損失関数
革新的なSigmoid損失関数を使用して言語画像事前訓練を行い、モデルの性能を向上させました
改善された意味理解
前世代のモデルと比較して、より優れた意味理解と位置特定能力を持っています
密な特徴抽出
画像の密な特徴を抽出でき、より複雑な視覚タスクに適しています
多言語サポート
多言語視覚言語エンコーディングをサポートしています

モデル能力

ゼロショット画像分類
画像の意味理解
画像テキスト対照学習
多言語視覚言語エンコーディング

使用事例

コンピュータビジョン
ゼロショット画像分類
特定の訓練なしで画像を分類できます
例ではベネティアン・ワッフルの認識精度が高いことが示されています
視覚的意味理解
画像内の意味内容を理解します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase