S

Siglip Base Patch16 256 Multilingual

googleによって開発
SigLIPはWebLiデータセットで事前学習された改良版CLIPモデルで、Sigmoid損失関数を使用して画像-テキストマッチングタスクを最適化
ダウンロード数 175.86k
リリース時間 : 1/8/2024

モデル概要

マルチモーダル視覚言語モデル、ゼロショット画像分類と画像テキスト検索タスクに適し、多言語テキスト入力をサポート

モデル特徴

Sigmoid損失関数
改良された損失関数は画像-テキストペアのみで計算可能で、グローバルな類似度正規化が不要、小バッチ訓練効果を向上
多言語サポート
多言語テキスト入力をサポートし、クロスランゲージ視覚理解タスクに適応
効率的な事前学習
16個のTPU-v4チップでわずか3日間の訓練で完了

モデル能力

ゼロショット画像分類
画像テキスト類似度計算
多言語視覚理解

使用事例

コンテンツ理解
ソーシャルメディア画像分類
微調整なしでユーザーアップロード画像のマルチラベル分類が可能
従来のCLIPモデルより精度が優れている(論文比較参照)
クロスモーダル検索
画像テキスト検索エンジン
テキストクエリで関連画像をマッチングまたは逆検索機能を実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase