V

Vit SO400M 14 SigLIP2

timmによって開発
WebLIデータセットで訓練されたSigLIP 2ビジュアルランゲージモデルで、ゼロショット画像分類タスクに適しています。
ダウンロード数 1,178
リリース時間 : 2/21/2025

モデル概要

このモデルは対照的な画像テキストモデルで、主にゼロショット画像分類タスクに使用されます。SigLIP 2アーキテクチャに基づいており、WebLIデータセットで訓練され、改善された意味理解と位置特定能力を持っています。

モデル特徴

改善された意味理解
SigLIP 2アーキテクチャに基づき、前世代よりも優れた意味理解能力を持っています
ゼロショット分類能力
特定の訓練なしで未見のカテゴリを分類できます
密な特徴抽出
画像の密な特徴を抽出でき、より細かい画像理解をサポートします
多言語サポート
複数言語のテキスト入力をサポートします(論文の記述に基づく推測)

モデル能力

ゼロショット画像分類
画像-テキストマッチング
マルチモーダル特徴抽出
クロスモーダル検索

使用事例

画像分類
ゼロショット物体認識
訓練なしで新しいカテゴリの物体を認識できます
例中のベネティアンウェーファーを正確に認識可能
コンテンツ理解
画像意味理解
画像内容を理解し関連するテキスト記述とマッチングします
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase