V

Vit B 16 SigLIP I18n 256

timmによって開発
WebLIデータセットで訓練されたSigLIP(言語-画像事前学習用のSigmoid損失)モデルで、ゼロショット画像分類タスクに適しています。
ダウンロード数 87.92k
リリース時間 : 10/17/2023

モデル概要

このモデルはSigLIP(言語-画像事前学習用のSigmoid損失)で訓練された視覚-言語モデルで、主にゼロショット画像分類タスクに使用されます。画像とテキストを同じ埋め込み空間にマッピングすることで、画像とテキストのコントラスティブ学習を実現します。

モデル特徴

Sigmoid損失関数
言語-画像事前学習にSigmoid損失関数を使用しており、従来のSoftmax損失関数に比べてマルチラベル分類タスクをより適切に処理できます。
ゼロショット分類
ゼロショット画像分類をサポートしており、特定のタスク向けに微調整せずに新しいカテゴリに直接適用できます。
多言語サポート
モデル名の'i18n'は国際化サポートを表し、複数言語のテキスト入力を処理できます。

モデル能力

ゼロショット画像分類
画像-テキストコントラスティブ学習
多言語テキスト処理

使用事例

画像分類
ゼロショット画像分類
訓練なしで画像を分類でき、カテゴリラベルのテキストを提供するだけで済みます。
画像内容を正確に識別し、最も関連性の高いテキストラベルにマッチングできます。
クロスモーダル検索
画像-テキストマッチング
画像とテキスト間の類似度を計算し、関連するコンテンツを検索するために使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase