V

Vit Gopt 16 SigLIP2 384

timmによって開発
WebLIデータセットで訓練されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
ダウンロード数 1,953
リリース時間 : 2/21/2025

モデル概要

これは対比画像-テキストモデルで、ゼロショット画像分類タスク向けに設計されており、画像内容を理解しテキスト記述とマッチングできる

モデル特徴

SigLIP 2アーキテクチャ
改良されたSigmoid損失関数を使用した視覚言語事前訓練で、より優れたセマンティック理解能力を提供
ゼロショット分類
特定タスクの微調整なしで直接画像分類タスクに適用可能
多言語サポート
論文情報に基づく多言語テキスト理解の推論サポート(追加検証必要)

モデル能力

画像-テキスト対比学習
ゼロショット画像分類
画像セマンティック理解
マルチモーダル特徴抽出

使用事例

画像理解
食品認識
画像中の食品タイプを識別(ドーナツ、ベニエなど)
例ではベニエを最も高い確率で正しく識別
動物認識
画像中の動物種を識別(猫、犬など)
コンテンツモデレーション
不適切コンテンツ検出
画像中に含まれる可能性のある不適切コンテンツを自動検出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase