V

Vit SO400M 16 SigLIP2 256

timmによって開発
WebLIデータセットで学習されたSigLIP 2視覚言語モデル、ゼロショット画像分類をサポート
ダウンロード数 998
リリース時間 : 2/21/2025

モデル概要

これは対比画像-テキストモデルで、特にゼロショット画像分類タスクに特化しています。モデルはSigLIP 2アーキテクチャを採用し、WebLIデータセットで学習されており、改善された意味理解と位置特定能力を持っています。

モデル特徴

改善された意味理解
SigLIP 2アーキテクチャを採用し、前世代モデルと比べてより優れた意味理解能力を持っています
ゼロショット分類能力
特定の学習なしで新しいカテゴリの画像分類が可能
多言語サポート
複数言語のテキスト入力をサポート(論文の記述に基づく推測)
効率的な視覚エンコーディング
16x16のViTアーキテクチャを使用して効率的な画像特徴抽出を実現

モデル能力

ゼロショット画像分類
画像-テキストマッチング
マルチモーダル特徴抽出

使用事例

画像分類
食品認識
ドーナツ、ベニエなどの様々な食品カテゴリを識別
類似した食品カテゴリを正確に区別可能
動物認識
猫、犬などの異なる動物種を識別
類似した動物カテゴリを区別可能
コンテンツモデレーション
不適切コンテンツ検出
画像に含まれる可能性のある不適切なコンテンツを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase