V

Vit Gopt 16 SigLIP2 256

timmによって開発
WebLIデータセットで学習されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクに適しています。
ダウンロード数 43.20k
リリース時間 : 2/21/2025

モデル概要

このモデルは対照的な画像-テキストモデルで、主にゼロショット画像分類に使用されます。Big VisionのオリジナルJAXチェックポイントからOpenCLIP用に変換されています。

モデル特徴

SigLIP 2アーキテクチャ
改良されたSigLIP 2アーキテクチャを採用し、より優れた意味理解、位置特定、密な特徴抽出能力を備えています。
多言語サポート
多言語テキスト入力をサポート(論文から推測)。
ゼロショット分類
微調整なしで画像分類タスクを実行可能。

モデル能力

ゼロショット画像分類
画像-テキスト対照学習
多言語理解

使用事例

画像理解
ゼロショット画像分類
特定のトレーニングなしで画像を分類可能
例ではベニエなどの食品を正しく識別できることが示されています
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase