V

Vit B 16 SigLIP2 512

timmによって開発
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類タスクをサポート
ダウンロード数 1,442
リリース時間 : 2/21/2025

モデル概要

これは対比画像-テキストモデルで、ゼロショット画像分類のために設計され、画像内容を理解しテキスト記述とマッチングできる

モデル特徴

Sigmoid損失関数
革新的なSigmoid損失を言語画像事前学習に採用し、モデル性能を向上
多言語サポート
多言語テキスト理解をサポートし、言語横断的アプリケーション能力を強化
改良された意味理解
前世代モデルと比べ、意味理解と位置特定能力が大幅に向上

モデル能力

ゼロショット画像分類
画像-テキストマッチング
マルチモーダル特徴抽出

使用事例

画像理解
ゼロショット画像分類
特定のトレーニングなしで画像を分類可能
例ではベニエなどの食品を正確に識別できることを示している
マルチモーダルアプリケーション
画像検索
テキスト記述を通じて関連画像を検索
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase