V

Vit B 16 SigLIP

timmによって開発
WebLIデータセットで訓練されたSigLIP(Sigmoid Loss for Language Image Pre-training)モデルで、ゼロショット画像分類タスクに使用されます。
ダウンロード数 27.77k
リリース時間 : 10/16/2023

モデル概要

このモデルは対照的な画像-テキストモデルで、Sigmoid損失関数を用いた言語画像事前学習を採用し、ゼロショット画像分類タスクをサポートします。

モデル特徴

Sigmoid損失関数
Sigmoid損失関数を用いた言語画像事前学習を採用し、従来のSoftmax損失関数よりも特定のタスクで優れた性能を発揮します。
ゼロショット分類能力
タスク固有の微調整なしで画像分類タスクを実行できます。
WebLIデータセット訓練
大規模なWebLIデータセットで訓練されており、幅広い視覚概念の理解能力を持っています。

モデル能力

画像-テキスト対照学習
ゼロショット画像分類
画像特徴抽出

使用事例

画像分類
食品認識
画像中の食品タイプ(ドーナツ、ベニエなど)を識別します。
様々な食品タイプを正確に識別可能
動物認識
画像中の動物タイプ(猫、犬など)を識別します。
一般的な動物を正確に識別可能
コンテンツ理解
画像内容説明
画像内容を理解し、関連するテキスト記述とマッチングします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase