V

Vit B 16 SigLIP2 256

timmによって開発
WebLIデータセットで訓練されたSigLIP 2視覚言語モデルで、ゼロショット画像分類タスクをサポート
ダウンロード数 10.32k
リリース時間 : 2/21/2025

モデル概要

これは対比画像-テキストモデルで、ゼロショット画像分類タスク専用に設計されています。シグモイド損失関数を用いた言語画像事前学習を行い、改善された意味理解と位置特定能力を備えています。

モデル特徴

シグモイド損失関数
従来のSoftmaxではなくシグモイド損失関数を採用し、言語画像事前学習の効果を向上
改善された意味理解
前世代モデルと比較して、より優れた意味理解と位置特定能力を有する
密な特徴抽出
画像の密な特徴を抽出可能で、より精細な画像理解をサポート

モデル能力

ゼロショット画像分類
画像-テキスト対比学習
多言語画像理解

使用事例

画像理解
食品認識
画像中の食品タイプを識別(ドーナツ、ベニエなど)
一般的な食品タイプを正確に分類可能
動物認識
画像中の動物カテゴリを識別(猫、犬など)
一般的な動物に対して高い認識精度を有する
多言語アプリケーション
多言語画像アノテーション
異なる言語テキストを使用した画像分類
多言語ラベル入力をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase