V

Vit SO400M 14 SigLIP 384

timmによって開発
WebLIデータセットで学習されたSigLIP(言語-画像事前学習のSigmoid損失)モデルで、ゼロショット画像分類タスクに適しています。
ダウンロード数 158.84k
リリース時間 : 10/16/2023

モデル概要

このモデルはコントラスト画像-テキスト事前学習手法を採用し、Sigmoid損失関数による最適化により、効率的なゼロショット画像分類を実現できます。

モデル特徴

Sigmoid損失関数
Sigmoid損失を用いた言語画像事前学習により、モデルのコントラスト学習効果を向上させました。
ゼロショット分類能力
特定タスクのファインチューニングなしで、新しい画像分類タスクに直接適用可能です。
効率的な視覚エンコーディング
Vision Transformerアーキテクチャに基づき、画像特徴を効率的に抽出できます。

モデル能力

画像特徴抽出
ゼロショット画像分類
マルチモーダルコントラスト学習

使用事例

画像理解
食品認識
画像中の食品カテゴリ(ドーナツ、ベニエなど)を識別します。
一般的な食品カテゴリを正確に識別可能
動物認識
画像中の動物カテゴリ(猫、犬など)を識別します。
一般的な動物に対して高い認識精度を有する
コンテンツモデレーション
不適切コンテンツ検出
画像中に含まれる可能性のある不適切なコンテンツを識別します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase